Weryfikacja typologii morfologiczno-porównawczej za pomocą nowoczesnych metod statystycznych

Ostatnio postanowiłem sprawdzić wyniki analizy typologicznej metodą morfologiczno-porównawczą Michalskiego za pomocą nowoczesnych metod statystycznych. Nie mówię o przestarzałej i arbitralnej metodzie Wankego, ale metodzie analizy skupień (klasteryzacji) wielocechowych obiektów wg odległości między nimi (np. euklidesowych) w przestrzeni wielowymiarowej. Użyłem oczywiście danych ustandaryzowanych (wg odchylenia standardowego dla każdego zbioru cech).

Celem analizy skupień jest takie pogrupowanie badanych obiektów (np. osób), aby według zadanych kryteriów wyodrębnić w badanej próbie podobne do siebie jednostki i przydzielić je do osobnych grup. Klasteryzacja polega na takim przyporządkowaniu badanych osób do grup, aby wewnątrz każdego z takich wydzielonych skupień jednostki w nim się znajdujące były najbardziej podobne do siebie.  Przeciwnie zaś różne wyodrębnione grupy muszą być jak najmniej podobne do siebie (jako całości). Czyli stopień powiązania ze sobą osobników w danej grupie jest zawsze największy, a stopień powiązania z osobnikami z onych grup tym mniejszy, im bardziej grupy w dendrogramie są od siebie oddalone.
Przy takiej analizie bierze się pod uwagę wiele cech jednego obiektu (w tym przypadku osoby) jednocześnie, w określaniu jego odległości / podobieństwa do innych obiektów. Stąd analiza wielocechowa. Badanie takie może też ujawniać ukryte korelacje miedzy różnymi, pozornie niezwiązanymi ze sobą cechami. Ponadto używając danych ustandaryzowanych możemy ze sobą porównywać cechy o zupełnie różnych charakterze jak wzrost, skale pigmentacyjne oczu czy włosów, wymiary w mm głowy czy twarzy, czy wskaźniki antropometryczne. Oczywiście bez standaryzacji nie jest to już metoda obiektywna (bowiem wyróżniały by się w danych swoją znacznie większą "wagą" np wzrost czy wymiary głowy, w porównaniu np do wymiarów nosa).

Trzeba podkreślić że analiza skupień jedynie wykrywa struktury w danych bez wyjaśniania dlaczego one występują. Nie ma tu narzuconych z góry arbitralnych założeń że dany typ ma składać się z takich a nie innych osobników. Po prostu jeśli obiekty są podobne, to się grupują. Różnice mogą wystąpić jedynie zależnie od użytego algorytmu lub metryki odległości. Program bierze też pod uwagę cechy mniej istotne taksonomicznie (np. wskaźnik jarzmowo-ciemieniowy) w takim samym stopniu jak np. wskaźnik głowy czy nosa, ale z reguły nie ma to dużego wpływu na ostateczne wyniki, wręcz często je polepsza.
Do dendrogramów używam metody hierarchicznej – klastry powstają na tej zasadzie, że na każdym poziomie skupienia tworzona jest grupa składająca się z grup otrzymanych w poprzednich krokach łączenia. Poczynając od pojedynczych obserwacji najbardziej podobnych do siebie do coraz to większych skupień. Skupiam się z reguły na ostatnich poziomach dendrogramu ale czasem niższe poziomy (liczniejsze grupy) ujawniają ciekawe zależności.

Dodatkowo używam też analizy głównych składowych (Principal Components Analysis - PCA), która lepiej niż dendrogram sprawdza się przy bardzo licznych grupach (powyżej 100 osobników) dla graficznego ukazania ich wzajemnych zależności.

Analiza składowych głównych polega na wyznaczeniu zupełnie nowych zmiennych (składowych głównych) będących kombinacją liniową zmiennych obserwowanych (pierwotnych). Dokładna analiza składowych głównych umożliwia wskazanie tych zmiennych pierwotnych, które mają duży wpływ na wygląd poszczególnych składowych głównych czyli tych, które tworzą grupę jednorodną. Składowa główna jest wówczas reprezentantem tej grupy. Kolejne składowe są wzajemnie ortogonalne (nieskorelowane) a ich liczba (♀) jest mniejsza lub równa liczbie zmiennych pierwotnych (p).
Poszczególne składowe główne są kombinacją liniową zmiennych pierwotnych.
Każda składowa główna wyjaśnia pewną część zmienności zmiennych pierwotnych. W naturalny sposób opiera się więc na takich miarach zmienności jak kowariancja (gdy zmienne pierwotne są podobnej wielkości i są wyrażone w tych samych jednostkach) lub korelacja (gdy założenia potrzebne do stosowana kowariancji nie są spełnione)

  Analiza składowych głównych (http://pqstat.pl/?mod_f=test_pca)

Tym samym można takiego grupowania surowych danych o grupie jakiś badanych osobników użyć do ich poszeregowania na podstawowe, najbardziej podobne skupienia (klastry) i potem już, ręcznie, klasyczną metodą kombinacyjną używaną w metodzie morfologiczna-porównawczej "doszlifować" dane typy w powstałych grupach, ewentualnie przerzucić rzadkie przypadki źle zgrupowane do innych "skupień fenotypowych". Analiza skupień ma dokładnie to samo założenie co w metoda opracowana przez Michalskiego i jego kontynuatorów, wyróżniamy typy (czyli grupy / skupienia obiektów) na podstawie wzajemnego podobieństwa (w wielu cechach jednocześnie) obiektów / osobników do nich zaliczonych. Występują też dodatkowo powiązania z typami pokrewnymi / macierzystymi.

Przperowadzone analizy:

Konkluzja jest tak że dla próby z populacji polskiej program statystyczny wydzielił nam nie tylko typy ale i ich frakcje. Względnie jak to nazywał Michalski "jądra krystalizacyjne" gdzie grupują się pewne składniki połączone wspólnym, dominującym elementem rasowym. Np. grupa laponoidalna z hL, aL,eL i yl. Za każdym innym algorytmem układ jest trochę inny ale podstawowe grupy są zawsze wydzielane, różnią co najwyżej kolejnością ułożenia i zaliczeniem najbardziej "skrajnych "  albo mogących być wieloznacznie interpretowanych przypadków, z reguły osobników będących jedynymi reprezentantami jakiegoś typu lub jego frakcji w badanej próbie osobników.

Z kolei dla próby z populacji chińskiej mamy jeszcze ciekawsze wyniki, bo wystąpiło w niej sporo przedstawicieli ras odmiany żółtej i zostali  bez wątpienia prawidłowo wydzieleni na wykresach głównych składowych (PCA). Żaden nie został przedstawiony gdzieś w środku wykresu, więc spełniły definicję elementarnego typu rasowego wg polskiej szkoły antropologicznej

Ich zespoły cech zajmują mniej lub bardziej skrajne położenie w obrębie poszczególnych odmian do których się zaliczają.

Cóż, nie da się teraz stwierdzić że indywidualne typy rasowe nie istnieją i to tylko arbitralne kombinacje głowy, twarzy, nosa i pigmentacji. Użyłem 20 cech i mimo to nawet frakcje tak zróżnicowanego typu jak subnordyczny (AL) zostały wyodrębnione z matematyczną precyzją...

Program nie klasyfikował wg podobieństwa osobników na zdjęciach. Nie przejmował się tym, że rozdzielenie danego typu na podstawie "cięcia" przy wskaźniku głównym 83 albo 77, wydaje się kompletnie arbitralne dla niektórych naukowców i podobno jakby zastosować inne zakresy wskaźników to byśmy mieli inne typy wydzielane. Nic z tych rzeczy. Proszę sobie sprawdzić powyższe linki do analiz. Wyraźnie widać że podziały na kategorie cech w taki, a nie inny sposób miały sens. Jak też sprzężenie różnych wskaźników i cech opisowych w danym typie, czy jego frakcji.

Na koniec można stwierdzić że metoda morfologiczno-porównawcza jest "niestatystycznym" odpowiednikiem klasteryzacji wielocechowej. Wydzielanie typów na podstawie kombinacji 9, a czasem więcej cech, dodatkowo przy każdym typie inaczej sprzężonych, widocznie powoduje zbliżony efekt.

Dodanie skal liczbowych dla cech opisowych sprawia że program bierze pod uwagę nie tylko wymiary i proporcje kefalometryczne, ale też w pewnym przybliżeniu fizjonomię osobników. Dlatego też wyniki są tak dokładne.

Warto podkreślić że ze znanych mi typologii rasowych jedynie ta wg kierunku morfologiczno-porównawczego jest możliwa do sprawdzenia za pomocą metod wielowymiarowej analizy statystycznej. Kluczem są tu zakresy wskaźników i cech opisowych (przetransponowanych na skale liczbowe), dlatego dani przedstawiciele typów antropologicznych nie muszą być niemal identyczni we wszystkich parametrach branych pod uwagę jak w typologiach operujących pojęciem kanonów typologicznych / typów idealnych. W takich typologiach osobnicy pośredni mogli się co najwyżej zbliżać mniej lub bardziej do konstanty rasowej, lub jak w systemie Wankego prezentować różne udziały procentowe odpowiadające odległości od wszystkich branych pod uwagę (w danej analizie) konstant cech dla elementów rasowych (ale trzeba było najpierw arbitralnie założyć ile ich wystąpi w badanej populacji, przed badaniem, co jest przecież bez sensu i dać im arbitralne idealne średnie cech). Ironią losu prof. Ireneusz Michalski, największy przeciwnik metod statystycznych wśród polskich antropologów stworzył taksonomię najbardziej podatną na nowoczesną analizę wielocechową, która w jego czasach oczywiście była dopiero na etapie powstawania i bez nowoczesnych komputerów była niezwykle trudna w użyciu.

Należy podkreślić że podział dotyczy cech fenotypowych, więc wydzielone typy są technicznie rzecz ujmując fenotypami i tak należy je traktować. Nie wnikam tu w ich genetyczne powinowactwo. Idealnie byłoby zrobić taką analizę na materiale rodziców i dorosłych dzieci dla porównania.

 Wkrótce dokonam podobnych analiz dla populacji pozaeuropejskich i to na jeszcze większej ilości cech. Wstępnie mogę nadmienić że nawet  przy 50 cechach branych pod uwagę, typy rasowe określone wg kierunku morfologiczno-porównawczego dalej są przez program statystyczny wydzielane w odrębnych skupieniach.

autor portalu: Łukasz M.

Menu portalu