narzędzia |
Współczynnik korelacji rang Spearmana
Animacja wyjaśnia własności korelacji rangowej. Na osiach odłożone są wartości porównywanych zmiennych. Punkty symbolizują obserwacje w próbie. Współczynnik korelacji rang Spearmana jest obliczany w dwóch etapach[1]: najpierw wykonywane jest rangowanie, czyli zastąpienie każdej zaobserwowanej wartości przez jej numer w zbiorze posortowanym rosnąco. Rangowanie pokazane jest tu w formie animacji, aby umożliwić śledzenie losów każdej z obserwacji; naprawdę żadne stadia pośrednie nie występują. Następnie obliczany jest zwykły współczynnik korelacji liniowej Pearsona[2]. Jest on wprawdzie wrażliwy na obserwacje odstające, jednak rangowanie zbliża je do pozostałych, dzięki czemu niweluje się ich zakłócający wpływ na wynik[3][4]. Dla pokazanych tu danych, przed rangowaniem współczynnik korelacji jest nieistotny statystycznie
Ten sam współczynnik dla rang wykazuje już istotną zależność pomiędzy zmiennymi Monotoniczna nieliniowa zależność przekształca się przy rangowaniu w liniową[5], w wyniku czego współczynnik korelacji liniowej Pearsona, zastosowany do rang, mierzy siłę zależności nieliniowej.Korelacja rang Spearmana (lub: korelacja rangowa Spearmana, rho Spearmana) – w statystyce jedna z nieparametrycznych miar monotonicznej zależności statystycznej między zmiennymi losowymi. Pierwotny pomysł korelowania rang był już znany wcześniej i pochodził od Bineta i Henriego[6], jednak współczynnik ten został solidnie opisany i rozpropagowany dopiero w 1904 roku[7] przez angielskiego psychologa Charlesa Spearmana. Zauważył on, że w wielu badaniach nie da się zastosować klasycznego współczynnika korelacji lub daje on nieistotne wyniki ze względu na nadmiar obserwacji odstających[8]. Spearman zdefiniował swój współczynnik jako zwykły współczynnik korelacji Pearsona, liczony dla rang zmiennych (stąd nazwa współczynnik korelacji rang)[8]. Obecnie stosowanych jest kilka jego wersji, nieznacznie różniących się od siebie. Ich wartości są identyczne w przypadku, gdy obserwacje każdej zmiennej w próbie nie powtarzają się. Jeśli jednak nie jest to prawdą, to współczynnik korelacji dla rang opisuje jedynie wzór (2) i jego odmiany[9]. Mimo to często używany jest też prostszy wzór (7)[10].
[edytuj] Zastosowanie i interpretacjaKorelacja rangowa przyjmuje zawsze wartości z przedziału Model korelacji rangowej zawiera szerszą klasę zależności niż model klasycznego współczynnika korelacji, nie obejmuje jednak wszystkich możliwych zależności. Na przykład zależność okresowa, spotykana często w analizie szeregów czasowych, gdzie nosi nazwę sezonowości, nie jest wykrywana ani przez korelację Pearsona, ani Spearmana[12]. Jako metoda rangowa, rho Spearmana jest w niewielkim tylko stopniu wrażliwe na obserwacje odstające[3][4], dzięki czemu szczególną użyteczność znajduje w analizie danych niskiej jakości[13]. Współczynnik korelacji Spearmana zależy wyłącznie od uporządkowania zaobserwowanych wartości. Może zatem być stosowany do dowolnych zmiennych, których wartości można uporządkować rosnąco, takich jak np. wykształcenie. Klasyczny współczynnik korelacji nie ma sensownej interpretacji dla zmiennych na skali porządkowej, gdyż uzależniony jest od różnic między wartościami zmiennych, które dla cech porządkowych nie są określone[14]. Współczynnik korelacji Spearmana oraz testy jego istotności mogą być stosowane przy dowolnym rozkładzie porównywanych zmiennych[13]. Korelacja rang Spearmana może być też opisana jako nachylenie (współczynnik kierunkowy) prostej najlepiej dopasowanej (w sensie najmniejszych kwadratów) do zbioru par rang[12]. Istnieją inne, bardziej egzotyczne interpretacje[15], nie mają jednak znaczenia praktycznego. Zależność między zmiennymi losowymi (niezależnie od tego, jakim wskaźnikiem jest mierzona) nie musi oznaczać związku przyczynowo-skutkowego[16]. [edytuj] Korelacja rang Spearmana zmiennych losowychTa wersja ma znaczenie w statystyce teoretycznej. Wartości dowolnych miar statystycznych wyliczanych z próby wygodnie jest uważać za estymatory (przybliżenia) miar liczonych na podstawie rozkładu zmiennej losowej z którego próba była losowana. W przypadku miar korelacji, dla zmiennych Korelacja rang Spearmana zmiennych losowych
gdzie:
Dla ciągłych zmiennych losowych zachodzi
gdzie
[edytuj] Korelacja rang Spearmana z próbyW praktyce współczynnik korelacji rang oblicza się dla próby statystycznej. Używane do tego wzory można uważać za estymatory (przybliżenia) korelacji rang danej wzorem (1) lub korelacji rang istniejącej w populacji statystycznej[21]. Przybliżenia nie są jednak tym samym, co wartość przybliżana. Ich wyniki będą zatem dla odróżnienia oznaczane przez Współczynnik obliczany jest w następujący sposób[22]:
[edytuj] Wzory uwzględniające rangi wiązane[edytuj] Oryginalna propozycja SpearmanaW oryginalnym ujęciu Spearmana, jego korelacja rang jest współczynnikiem korelacji Pearsona liczonym dla rang zmiennych zamiast ich surowych wartości[8][30], co jest bezpośrednim przełożeniem wzoru (1) na język rang[31].
gdzie:
Wzór ten można uważać za próbkowy odpowiednik wzoru (1)[21]. Rozpisanie wzoru na korelację Pearsona prowadzi do
Ten sam estymator można też zapisać w innej, równoważnej wersji jako[30][32]:
gdzie:
Rozkład porządkowych zmiennych losowych w próbie można przedstawić w formie tablicy dwudzielczej (tablicy kontyngencji), w której kolumny odpowiadają uszeregowanym wartościom jednej zmiennej (oznaczonej przez Wzór (2) przyjmuje wtedy postać[33]:
gdzie:
Dziś estymator (2) jest standardowym wzorem używanym np. przez pakiety statystyczne SAS[34] oraz SPSS[35], a także w uwzględniających rangi wiązane pracach naukowych z dziedziny statystyki[36]. W podręcznikach statystyki oraz w pracach naukowych z innych dziedzin nadal jednak popularny jest podany dalej wzór (7), ze względu na stopień komplikacji wzorów (2a) lub (2b), utrudniający ręczne obliczenia, mimo że w obliczeniach wykonywanych na komputerze wzór (2) jest nawet prostszy w zastosowaniu[37]. Niekiedy estymator (2)/(2a)/(2b)/(2c) nazywany jest "skorygowaną korelacją rangową". [edytuj] Wzór dla rang wiązanych powstałych przez agregacjęPowtarzające się wartości zmiennych, a tym samym rangi wiązane, mogą powstawać na dwa sposoby w zależności od natury badanego zjawiska:
Podczas agregacji tracona jest informacja o zróżnicowaniu obserwacji wewnątrz każdego przedziału, co sprawia, że zmienne, które przed agregacją nie miały identycznych rang, po agregacji mogą już mieć taki sam porządek. Agregacja jest zwykle zabiegiem wymuszonym warunkami badania, którego wpływ na wyniki powinien być jak najmniejszy. Przydatny byłby więc estymator, szacujący korelację rangową zmiennych przed agregacją na podstawie danych po agregacji. Taki estymator osiągałby wartości Kendall proponuje aby w przypadku rang wiązanych powstałych sztucznie stosować w mianowniku wariancje takie, jak gdyby rang wiązanych nie było (gdyż tak jest w hipotetycznej nieskończonej populacji, dla której korelacja rangowa jest estymowana). Uzyskany w ten sposób estymator jest wartością oczekiwaną współczynnika korelacji rang obliczonego dla tych samych zmiennych przed agregacją (przy założeniu, że każda kombinacja rang prowadząca po agregacji do obserwowanej próby jest jednakowo prawdopodobna)[38].
W ogólnym przypadku, po uwzględnieniu rang wiązanych, wariancja rang wynosi: gdzie współczynnik W przypadku braku rang wiązanych, Niezależnie od tego, czy pojawiły się rangi wiązane, czy nie, średnia rang jest zależna jedynie od liczności próby[39]: Podstawiając powyższe równania do wzoru (2a), uzyskuje się[1]:
Ten estymator można zapisać w równoważnej postaci jako[30]:
gdzie
Dla tablic dwudzielczych estymator (6) przyjmuje postać[40]
gdzie:
Istnieje jeszcze inny estymator dla tablic dwudzielczych, zaproponowany przez Stuarta[41][33]. [edytuj] Wzór nieuwzględniający rang wiązanychCzęsto stosowanym estymatorem jest[42]:
gdzie (tak jak wcześniej) to różnica między rangami zmiennych W przypadku gdy nie ma rang wiązanych (połączonych), czyli wartości nie powtarzają się w obrębie próby dla żadnej ze zmiennych z osobna, wzór (7) daje te same wyniki, co każdy z podanych wcześniej estymatorów (2)[39] i (6). Jeśli choć jedna ranga jest wiązana, każdy z nich daje inny wynik. Wzór (7) jest używany ze względu na prostotę obliczeń[14] istotną dla kalkulacji wykonywanych bez pomocy komputera i do dziś jest popularny w podręcznikach. Estymator ten ma jednak nieoczekiwane właściwości w przypadku wystąpienia rang wiązanych, np.
Część autorów uważa, że można ten estymator stosować tylko przy braku rang wiązanych, w przeciwnym wypadku jego stosowanie jest błędem[44][45][14]. Inni autorzy stosują go także wówczas[23][24][25][26][27]. Niektórzy uważają, że wzór można stosować, jeśli rang wiązanych jest nie więcej niż jedna czwarta ogółu i nie występują rangi wiązane z więcej niż dwóch obserwacji[28][46]. Pakiety statystyczne SAS[34] oraz SPSS[35] używają podanego wcześniej bardziej ogólnego wzoru (2). Niekiedy wzór (7) nazywany jest "nieskorygowaną korelacją rangową" w odróżnieniu od "skorygowanej korelacji rangowej" (2). Jest to związane z postacią wzoru (2b), który przypomina wzór (7) z dodaną "korektą na rangi wiązane". [edytuj] Właściwości
Matematyczne własności rho Spearmana mają związek z tożsamością Czebyszewa oraz nierównością o ciągach jednomonotonicznych. [edytuj] Przykład
We wzorach (7), (2b) i (6a) wykonywane są pośrednie obliczenia: W (2b) i (6a) także: (jest jedna ranga wiązana, mają ją trzy obserwacje), (jest jedna ranga wiązana, mają ją dwie obserwacje). Po podstawieniu do wzorów otrzymuje się:
[edytuj] Testowanie istotności statystycznejAby przetestować istotność statystyczną korelacji rangowej, wykorzystuje się fakt, iż przy założeniu hipotezy zerowej o niezależności zmiennych losowych korelacji rangowej dąży wraz ze wzrostem liczebności próby do rozkładu Studenta o Rozkład ten jest wyprowadzany przy założeniu braku rang wiązanych, jednak Kendall twierdzi, że w przypadku istnienia rang wiązanych poprawka do testu nie jest konieczna[49]. Dla liczebności próby dążącej do nieskończoności, rozkład rho Spearmana dąży do rozkładu normalnego o wartości oczekiwanej równej prawdziwej wartości ρS w populacji i wariancji[50] której rozkład przy założeniu hipotezy zerowej dąży wraz ze wzrostem liczności próby do standardowego rozkładu normalnego Dla małych prób wzory te są niedokładne (szczególnie statystyka Hipotezą alternatywną może być albo: (co prowadzi do dwustronnego obszaru krytycznego) albo
(co prowadzi do jednostronnego obszaru krytycznego). Dla omawianego powyżej przykładu, dwustronnego obszaru krytycznego i wyliczeń według trzech estymatorów otrzymuje się następujące wartości:
W tabeli podano wartość α wyliczoną za pomocą przybliżenia rozkładem Studenta, z rozkładu normalnego i wreszcie dokładnie – z tablic. Dla tak małej próby przybliżenie rozkładem Studenta daje różnice rzędu 0,05, co może mieć znaczenie przy określaniu istotności statystycznej. Przybliżenie rozkładem normalnym jest o wiele mniej dokładne. Dla małych prób konieczne jest więc stosowanie tablic lub symulacji komputerowych. Przy liczebności próby dążącej do nieskończoności różnica zmniejsza się i coraz bardziej uzasadnione jest stosowanie rozkładu Studenta, ewentualnie rozkładu normalnego, co jednak da większy od Studenta błąd wyznaczania istotności. Istnieją też stabelaryzowane rozkłady korelacji rangowej dla innych założeń, np. ρ = 0,4. Odpowiednie tabele podaje praca Fritza i Henze'a[52]. [edytuj] Związki z innymi współczynnikami i metodami statystycznymi[edytuj] Współczynnik korelacji PearsonaWspółczynniki te określają innego rodzaju zależność między zmiennymi (Pearson – zależność liniową, Spearman – dowolną monotoniczną), czasem jednak korelacja rang jest używana jako odporna wersja klasycznego współczynnika korelacji Pearsona[14]. W takiej roli widział ją zresztą sam Spearman[53]. Jest to uzasadnione w przypadku zakładanej liniowej zależności między zmiennymi w warunkach zanieczyszczenia próby obserwacjami odstającymi. Korelacja rangowa jest bowiem znacznie bardziej odporna na obserwacje odstające, które potrafią skrajnie zaburzyć wynik zwykłego współczynnika korelacji Pearsona[3][4]. Wartości tych dwóch współczynników nie są jednak wtedy równe – korelacja rangowa daje na ogół (nie zawsze) wyniki nieco bliższe zeru. W szczególności dla dwuwymiarowego rozkładu normalnego zachodzi[54]: gdzie:
Zależność ta jest ścisła przy braku rang wiązanych i nieskończonej populacji. Dla skończonej próby zależność między estymatorami Spearmana Współczynnik korelacji rang Spearmana jest więc estymatorem obciążonym (także asymptotycznie) i niezgodnym współczynnika korelacji Pearsona[55]. (Naturalnie na tej samej zasadzie współczynnik korelacji Pearsona będzie obciążonym, niezgodnym i nieefektywnym estymatorem korelacji rangowej Spearmana). Rho Spearmana jest też przy założeniu rozkładu dwuwymiarowego normalnego mniej efektywne niż współczynnik korelacji Pearsona liczony klasycznym wzorem, bez rangowania. Dla dwuwymiarowego rozkładu normalnego błąd standardowy korelacji Pearsona liczonej za pomocą wzoru:
(gdzie Jednak, gdy obserwacje nie spełniają założenia o normalności rozkładu, szczególnie gdy pojawiają się obserwacje odstające, wzór (11) często daje lepsze oszacowanie korelacji liniowej. Jeszcze dokładniejszy jest współczynnik tau Kendalla[55]. Współczynnik korelacji Pearsona nie zakłada żadnej postaci rozkładu porównywanych zmiennych, jednak wzory na jego istotność statystyczną zakładają już dwuwymiarowy rozkład normalny. W wielu przypadkach warunek ten nie jest spełniony i nie da się łatwo sprawdzić, czy wyniki korelacji Pearsona są przejawem rzeczywistej zależności[57]. Istotność współczynnika korelacji rangowej daje się zawsze określić, gdyż rozkład rang nie zależy od rozkładu porównywanych zmiennych, o ile nie ma rang wiązanych, a nawet wtedy testy istotności nie są znacząco zaburzone[49]. [edytuj] Inne miary korelacji rangowejKorelacja rangowa to szersze pojęcie niż korelacja rang Spearmana. Korelacja to ogólnie w statystyce zależność zmiennych losowych. Miary tej zależności wyliczane na bazie rang zwane są miarami korelacji rangowej. Wymienione poniżej miary nie są jednak uznawane za estymatory korelacji rang Spearmana – są odrębnymi współczynnikami o odrębnej interpretacji. Istnieją też inne, nie wymienione tutaj, współczynniki korelacji rangowej.
Miara Spearmana (ang. Spearman's footrule[58]) to współczynnik zaproponowany w tej samej pracy, co rho Spearmana[59], liczony podobnie jak we wzorze (7), jednak z wartością bezwzględną w miejsce kwadratu i z wynikającą z tego inną normalizacją: Jak pokazał Pearson[60], współczynnik ten nie ma dobrych właściwości statystycznych, w szczególności choć osiąga +1, nie osiąga nigdy wartości -1, z wyjątkiem przypadku n = 2[61].
Inną miarą korelacji rangowej dwóch zmiennych jest tzw. tau Kendalla. Między tymi wartościami zachodzą nierówności[62][20]: Podawane jest też[63] grubsze oszacowanie: Można też pokazać, że jeśli przedstawić łączny rozkład dwuwymiarowy zmiennych gdzie: Kendall i Stuart pokazali[65], że dla niezależnych zmiennych korelacja między tau i rho wynosi co najmniej 0,98 i dąży do 1 dla [edytuj] Uogólnienia rho Spearmana
Rho Spearmana jest znormalizowaną i przeskalowaną do przedziału [ − 1,1] miarą chi kwadrat Friedmana dla dwóch zmiennych. Jeśli wartość chi kwadrat Friedmana wynosi
Kolejnym uogólnieniem rho Spearmana na przypadek wielu zmiennych jest test L Page'a. Korelację rangową można stosować jako metodę sprawdzania, czy zmienna [edytuj] Analiza odpowiedniości oparta o rho SpearmanaKlasyczna analiza odpowiedniości (inna nazwa: analiza korespondencji) jest metodą statystyczną, która wszystkim możliwym wartościom dwóch zmiennych nominalnych przyporządkowuje takie liczby (tzw. skory), aby przy pewnych założeniach maksymalizować współczynnik korelacji Pearsona między tymi zmiennymi. Istnieje odpowiednik klasycznej analizy odpowiedniości, zwany gradacyjną analizą odpowiedniości (ang. Grade Correspondence Analysis; GCA), który maksymalizuje rho Spearmana[68] lub tau Kendalla[69]. [edytuj] KrytykaTe same własności rho Spearmana, które zwolennicy metod rangowych uważają za zalety, przeciwnicy mają za wady. Sam Spearman, który traktował swój współczynnik wyłącznie jako odporne na obserwacje odstające przybliżenie korelacji Pearsona, uważał za wadę fakt, że mierzy ona także zależność nieliniową[53]. Twórca klasycznego współczynnika korelacji, Karl Pearson, krytykował niezależność od rozkładu korelacji rang:
Przy okazji tej krytyki pierwszy raz w historii użyto określenia „korelacja rangowa”[71]. [edytuj] HistoriaPomysł korelowania rang był już znany przed Spearmanem i pochodził od Bineta i Henriego[72]. Redakcja czasopisma Biometrika w przypisie pracy Studenta zaznaczyła, że „ich wywód był bardzo niejasny i chyba nie zauważyli, że korelacja zmiennych różni się od korelacji rang”[73]. Współczynnik został solidnie opisany, zbadany i rozpropagowany dopiero w 1904 roku przez angielskiego psychologa Charlesa Spearmana[8][7]. Praca Spearmana była opisem różnych metod korelacji dla psychologów, m.in. korelacji Pearsona dla rang (choć Spearman nie zapisał swojej metody w postaci wzoru). Autor zauważył też, że w wielu badaniach nie da się zastosować klasycznego współczynnika korelacji Pearsona lub daje on nieistotne wyniki ze względu na nadmiar obserwacji odstających, natomiast problemy te znikają po rangowaniu[8]. Nadal traktował jednak korelację rang jedynie jako poszerzenie możliwości współczynnika korelacji Pearsona, choć znał różnice między nimi. Koncepcja rang wiązanych nie była jeszcze znana w początkach XX wieku – została ona wprowadzona później przez Pearsona[9]. Wówczas znany był już wzór (7), wyprowadzony naturalnie przy założeniu braku rang wiązanych. Student (William Sealy Gosset) w pracy z 1921 roku zauważył, że wzór (7) nie zgadza się z definicją Spearmana w przypadku rang wiązanych (sprowadzającą się wówczas do wzoru (2)) i podał wzór (2b), wyprowadził też wzór na wariancję korelacji rangowej. W 1948 roku Maurice Kendall napisał monografię Rank Correlation Methods, w której szczegółowo zbadał właściwości rho Spearmana i związki z własnym współczynnikiem tau Kendalla. Nacisk Spearmana na budowę stabilnych metod statystycznych, niezależnych od konkretnych parametrów rozkładu, został uogólniony w filozofii nauki do tzw. zasady Spearmana (ang. Spearman's Principle)[74]:
Podejście to dało początek całej nowej dziedzinie statystyki, zwanej statystyką odpornościową (ang. robust statistics[75]), zajmującej się budową metod statystycznych odpornych na obserwacje odstające. [edytuj] OznaczeniaW literaturze spotyka się różne oznaczenia korelacji rang Spearmana:
ρg
Przypisy
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||