Wielocechowa analiza statystyczna dla próby z populacji chińskiej

Tym razem dla porównania użyłem danych 111 Chińczyków z pracy Chi Li [1], określonych metodą morfologiczno-porównawczą przez Michalskiego, w jednej z jego pierwszych prac z 1938 [2].   Kilku osobników przerzuciłem do innych typów (dla Q jeden miał za wąski nos i był to ZI, za to dwóch z ZQ pasowało do definicji Q - tej z późniejszych prac autora). Poza tym Michalski nie określił trzech osobników bez podanego wieku (dwóch w typie L i jeden typ LI prawdopodobnie).

Celem było sprawdzenie jak w analizie wielocechowej zostaną zgrupowani osobnicy określonych typów antropologicznych. Wszyscy zaliczeni zostali do typów odmiany żółtej, bez domieszek innych odmian.

W próbie wystąpiło też całkiem sporo osobników należących do "czystych" ras (Z, Q, L, M + jeden I), dlatego dodatkowo chciałem sprawdzić czy zostaną w jakiś sposób wyróżnieni w dendrogramach czy na wykresie obrazującym główne składowe (PCA).

W analizie użyłem łącznie 30 cech. Z czego 9 wymiarów (wzrost, długość, szerokość i wysokość głowy, szerokość i wysokość całkowita twarzy, szerokość i wysokość nosa, szerokość najmniejsza czoła).

9 wskaźników antropometrycznych (główny, wysokościowo-długościowy, wysokościowo-szerokościowy, czołowo-ciemieniowy, czołowo-jarzmowy, twarzowy całkowity, nosowy, wysokości nosa, jarzmowo-ciemieniowy).  Część wskaźników obliczyłem automatycznie w arkuszu kalkulacyjnym na bazie  podanych wymiarów.

Oraz 12 cech opisowych (określonych słownie w skalach kilkustopniowych, przetransponowałem je na wartości liczbowe, z reguły jeden stopień to 1 albo 10). Nie użyłem wszystkich cech, bo w niektórych za dużo osobników nie miało podanych określeń, względnie były bezużyteczne do analizy bo prawie wszędzie podano takie same określenia. W paru skalach nie było określonych zaledwie po kilku osobników (na 111), przyjąłem dla nich średnie wartości w typie do którego należeli (przeważnie w zaokrągleniu do pełnych liczb). W arkuszu do pobrania poniżej, te wartości są zaznaczone na czerwono.

Cechy opisowe: kolor skóry (skala v. Luschana), gęstość włosów, kolor oczu (wszystko różne odcienie brązowego), skośność szpary ocznej, fałda mongolska (lub jej brak), wysokość czoła (jako cecha opisowa), szerokość czoła (jako cecha opisowa), stopień pochylenia czoła, stopień zagłębienia nasady nosa, wystawanie kości policzkowych, stopień prognatyzmu, wydatność podbródka.

Pobierz arkusz

Po przetransponowaniu na skale liczbowe, wszystko zostało poddane standaryzacji (przy użyciu SD). Następnie dokonałem analizy w programie statystycznym PAST 3.11.

Bardzo ciekawie ułożył się wykres głównych składowych (PCA). Każda ćwiartka to jeden typ elementarny na zewnętrznych jej końcach. Plus pojedynczy reprezentant typu arktycznego (I) pomiędzy typami wyżynnym (Q) i pacyficznym (Z). Pomiędzy elementami rasowymi mamy ich typy mieszane w centrum wykresu. Tam gdzie nie ma bezpośredniej styczności między dwoma typami elementarnymi, ich typy mieszane i tak układają się we właściwych kierunkach przeważnie. Wg mnie udowadnia to że wszystkie typy elementarne (rasy) zostały prawidłowo określone przez Michalskiego [1938] jako podstawowe elementy antropologiczne odmiany żółtej. Spełniły też definicję elementarnego typu rasowego wg polskiej szkoły antrooplogicznej:

Ich zespoły cech zajmują mniej lub bardziej skrajne położenie w obrębie poszczególnych odmian do których się zaliczają.

Wykres głównych składowych (PCA)

chiny-pca

Dendrogram dodatkowo obrazuje nam jak typy mieszane grupują się wokół typów elementarnych. Ale np. typ pacyficzny (Z) w większości stworzył własną osobną grupę. Podobnie jak typ mongoloidalny (M).

Dendrogram (UPGMA - metoda nieważonych średnich połączeń)  wg metryki odległości Rho

chiny-rho

 

 Następnie zostawiłem z cech opisowych tylko kolor skóry i oczu, skośność szpary ocznej i fałdę mongolską, wystawanie kości policzkowych i stopień prognatyzmu. Wykres głównych składowych ułożył się odwrotnie ale podział na cztery typy elementarne  (+ pojedynczy I) jest zachowany.

Wykres głównych składowych (PCA)

chiny-pca2

Dla tych samych danych dendrogram. Inne ułożenie grup ale podobne zgodności jak wyżej. Najpierw grupa laponoidalna, potem dwie grupy wyżynne, następnie pacyficzna, potem dwie mongoloidalne i na koniec mieszana o przewadze LZ.

Dendrogram (UPGMA - metoda nieważonych średnich połączeń)  wg metryki odległości Rho

Chiny-rho2

 

Teraz z kolei zostawiłem tylko wymiary i wskaźniki. Różnice są nieznaczne. Wykres osypiska dla PCA nie ma już tak prawidłowej krzywizny jak w pierwszym przykładzie.

Wykres głównych składowych (PCA)

Chiny-pca3

 Znowu mamy liczną grupę Z, większość L w osobnych podrgrupach, duża grupa M i druga typów mieszanych M, dla Q mamy grupy z LQ i ZQ, ponadto kilka drobnych skupień typów mieszanych.

Dendrogram (UPGMA - metoda nieważonych średnich połączeń)  wg metryki odległości Rho

chiny-RHO3

 

Teraz tylko same wskaźniki + wzrost. Układ dla wykresu głównych składowych (PCA) juz nie jest taki jak wcześniej. Typ laponoidalny (L) i znaczna część mongoloidalnego (M) skupiły się prawie w jednej ćwiartce.  Wszystko jest bardziej skupione i wymieszane. Według mnie wcześniejsze przykłady dużo lepiej obrazowały zróżnicowanie badanej grupy. Poza tym wykres osypiska pokazuje że główne składowe nie są prawidłowo określone.

Wykres głównych składowych (PCA)

chiny-pca4

 

Ale dendogram jest generalnie cały czas w miarę dobrze podzielony wg zasad typologii morfologiczno-porównawczej, choć z lewej paru przedstawicieli Q zostało zgrupowanych z grupą Z, co wcześniej się nie zdarzało. Potem jest grupa wyżynna (przewaga LQ), następnie mieszana grupa  przewagą LZ i MQ. Potem grupa mongoloidalna i obok mieszańców M, ale gdzie trafiło paru Z. Potem druga grupa wyżynna (przewaga ZQ), większa niż poprzednio grupa mongoloidalna i na koniec czysto laponoidalna.

Dendrogram (UPGMA - metoda nieważonych średnich połączeń)  wg metryki odległości Rho

chiny-rho4

 

 

Na koniec użyłem tylko wymiarów i wzrostu. Wykres głównych składowych jest bardziej prawidłowy patrząc na wykres osypiska, rozdzieliło nam znów L i M, ale Q i Z zostały wymieszane w górnej połowie wykresu. Za to dendrogram jest najbardziej wymieszany na małe grupki. Najlepiej grupuje się jak zwykle Z i LQ.

Wykres głównych składowych (PCA)

chiny-pca5

 

Dendrogram (UPGMA - metoda nieważonych średnich połączeń)  wg metryki odległości Rho

chiny-rho5

Konkluzja jest taka, że znów potwierdziło się jak w przykładzie dla próby polskiej, że wielocechowa analiza skupień wydziela nam podobne klastry osobników należących do spokrewnionych typów, oraz pojedyncze całe typy  jak w metodzie morfologiczno-porównawczej. Jak widać pierwsza analiza nie była przypadkowym wynikiem. Nasuwa się też wniosek że w tym przypadku duża liczba cech, najlepiej z dodatkiem cech somatoskopijnych daje lepsze rezultaty niż użycie kilku wskaźników czy wymiarów do analizy. Zaznaczam że cały czas grupujemy badanych przedstawicieli danej próby z populacji na podstawie cech fenotypowych. 

autor portalu: Łukasz M.


BIBLIOGRAFIA

  1. Chi L., The formation of the Chinese people. an anthropological inquiry, 1928 (wersja on-line)
  2. Michalski I., Składniki rasowe Chińczyków, 1938
  3. Użyłem programu statystycznego do dendrogramów - PAST (PAleontological STatistics) 3.11 oraz Open Office Calc do innych obliczeń. Dodatkowo standaryzację wykonywałem programem MaCzek 3.3.44.
  4. http://folk.uio.no/ohammer/past/multivar.html - omówienie metod użytych w dendrogramach generowanych przez program PAST