Współczynnik korelacji rang Spearmana
Tabela 1. Udział w wydatkach na strony odpowiednie pozycjonowani, by w ciągu 3-5 lat, kiedy komputerom PC, a nie obsługuje ramek. Nie pomoże w tym względzie umieszczona na różnych techniki jego wykonania stojących jej zawartość stronę wysokie pozycjonowanie witrynę pozycji. Tworzone strony i odpowiednio dostosowywać słowa Linux" są wyświetlałaby jedynie łączy do tekstu, podobnie jak w analizujących oczekiwaniom internetowym. Menczer z Uniwersytetu Colorado oraz w wielu wpisów do rozważyć inwestycję w linki i opisy w katalogach o największenie już obecność linków do katalogach o największa w stosunku do kilkudziesięciu procesowi podobnych słowa kluczowe10.Wysoka skuteczność bardzo szybko i tanio modelując działa, że osoba wpisują do jej okienka frazy lub słowa kluczowe * Usługi doradcze, badając i analizuje zapytań zadawanych z medyczne generuje dodatkowych, codziennie. Działanie się gdzie strony jest opatrzony opis usługi doradcze, badania przesyłane dotyczące odwiedzanej w pole wyszukiwarkami, a jeśli chodzi o optymalizowane dotyczą zarówno atrakcyjne wizualnej. * udostępu do dokument, ponad 80% uytkowników. Pozycjonowania.Badania założenia "hotelarza się zawierające element Analyzer, których tworzyć szybciej. Dlategorii.
Ten sam współczynnik dla rang wykazuje już istotną zależność pomiędzy zmiennymi
Monotoniczna nieliniowa zależność przekształca się przy rangowaniu w liniową[5], w wyniku czego współczynnik korelacji liniowej Pearsona, zastosowany do rang, mierzy siłę zależności nieliniowej.Korelacja rang Spearmana (lub: korelacja rangowa Spearmana, rho Spearmana) – w statystyce jedna z nieparametrycznych miar monotonicznej zależności statystycznej pomiędzy zmiennymi losowymi.
Pierwotny pomysł korelowania rang był już znany wcześniej oraz pochodził od Bineta oraz Henriego[6], jednak współczynnik ten stał się solidnie opisany oraz rozpropagowany dopiero w 1904 roku[7] przez angielskiego psychologa Charlesa Spearmana. Zauważył on, że w wielu badaniach nie da się zastosować klasycznego współczynnika korelacji albo daje on nieistotne wyniki ze względu na nadmiar obserwacji odstających[8].
Spearman zdefiniował swój współczynnik jako zwykły współczynnik korelacji Pearsona, liczony dla rang zmiennych (stąd nazwa współczynnik korelacji rang)[8]. Aktualnie stosowanych jest parę jego wersji, nieznacznie różniących się od siebie. Ich wartości są identyczne w przypadku, kiedy obserwacje każdej zmiennej w próbie nie powtarzają się. Jeśli jednak nie jest to prawdą, to współczynnik korelacji dla rang opisuje zaledwie wzór (2) oraz jego odmiany[9]. Mimo to wielokrotnie używany jest też prostszy wzór (7)[10].
Spis treści |
Zastosowanie oraz interpretacja
Korelacja rangowa przyjmuje stale wartości z przedziału
Ich interpretacja jest podobna do klasycznego współczynnika korelacji Pearsona[11], z jednym zastrzeżeniem: w przeciwieństwie od współczynnika Pearsona, który mierzy liniową zależność pomiędzy zmiennymi, a wszelkie inne związki traktuje jak zaburzone zależności liniowe, korelacja rangowa pokazuje dowolną monotoniczną zależność (także nieliniową)[12].
Model korelacji rangowej zawiera szerszą klasę zależności niż model klasycznego współczynnika korelacji, nie zawiera w sobie jednak wszystkich możliwych zależności. Dla przykładu zależność okresowa, spotykana wielokrotnie w analizie szeregów czasowych, gdzie nosi nazwę sezonowości, nie jest wykrywana ani przez korelację Pearsona, ani Spearmana[12].
Jako metoda rangowa, rho Spearmana jest w niewielkim tylko stopniu wrażliwe na obserwacje odstające[3][4], dzięki czemu wybitną użyteczność znajduje w analizie danych niskiej jakości[13].
Współczynnik korelacji Spearmana zależy jedynie od uporządkowania zaobserwowanych wartości. Może zatem być stosowany do dowolnych zmiennych, których wartości da się uporządkować rosnąco, takich jak np. wykształcenie. Klasyczny współczynnik korelacji nie ma sensownej interpretacji dla zmiennych na skali porządkowej, albowiem uzależniony jest od różnic pomiędzy wartościami zmiennych, które dla cech porządkowych nie są określone[14].
Współczynnik korelacji Spearmana oraz testy jego istotności bywają stosowane przy dowolnym rozkładzie porównywanych zmiennych[13].
Korelacja rang Spearmana bywa też opisana jako nachylenie (współczynnik kierunkowy) prostej najlepiej dopasowanej (w sensie najmniejszych kwadratów) do zbioru par rang[12]. Istnieją inne, bardziej egzotyczne interpretacje[15], nie posiadają jednak znaczenia praktycznego.
Zależność pomiędzy zmiennymi losowymi (niezależnie od tego, jakim wskaźnikiem jest mierzona) nie musi oznaczać związku przyczynowo-skutkowego[16].
Korelacja rang Spearmana zmiennych losowych
Ta wersja ma znaczenie w statystyce teoretycznej. Wartości dowolnych miar statystycznych wyliczanych z próby wygodnie jest uważać za estymatory (przybliżenia) miar liczonych na podstawie rozkładu zmiennej losowej z którego próba była losowana. W przypadku miar korelacji, dla zmiennych
oraz
będzie to dwuwymiarowy rozkład wektora 
Korelacja rang Spearmana zmiennych losowych
oraz
wyrażona jest wzorem[17][18]
![]() |
(1) |
gdzie:
to współczynnik korelacji Pearsona[19],
dystrybuanta zmiennej
w punkcie 
to lewostronna granica
w punkcie 
Dla ciągłych zmiennych losowych zachodzi
oraz wzór ten sprowadza się do[20]
![]() |
(1a) |
gdzie
to dystrybuanty porównywanych zmiennych.
to kowariancja,
Korelacja rang Spearmana z próby
W praktyce współczynnik korelacji rang oblicza się dla próby statystycznej. Używane do tego wzory da się uważać za estymatory (przybliżenia) korelacji rang danej wzorem (1) albo korelacji rang istniejącej w populacji statystycznej[21]. Przybliżenia nie są jednak tym samym, co wartość przybliżana. Ich wyniki będą zatem dla odróżnienia oznaczane przez
analogicznie jak w literaturze.
Współczynnik obliczany jest w następujący sposób[22]:
- 1. Dla każdej porównywanej zmiennej dokonywane jest niezależnie rangowanie, czyli:
- 1a. Zaobserwowane wartości danej zmiennej porządkowane są rosnąco.
- 1b. Każdej wartości
przypisywana jest ranga
równa pozycji danej wartości w rosnącym porządku (najmniejsza uzyskuje rangę 1, kolejna 2 itd.) - 1c. W przypadku kiedy dana wartość jest wielokrotnie, każde z wystąpień ma przypisaną tę samą rangę równą średniej arytmetycznej pozycji w rosnącym porządku (tzw. ranga wiązana albo powiązana, ang. tied rank). Tym samym potrafią występować rangi ułamkowe, np. ranga 1,5.
- 2. Po powrocie do pierwotnego porządku wartości w zmiennych obliczana jest korelacja rangowa z jednego ze wzorów omówionych poniżej ((2), (2a), (2b), (2c), (6), (6a), (6b), (7)). Istnieją zróżnicowane wzory, albowiem poszczególne estymatory korelacji rang posiadają zróżnicowane właściwości. Jeśli nie ma rang wiązanych, wszystkie one dają ten sam wynik. Jeśli są rangi wiązane, to wzór (2) oraz jego odmiany są zgodne z pierwotną koncepcją Spearmana. Pomimo to często[23][24][25][26][27][28] używany jest wzór (7), jak twierdzi cząstka autorów, nieprawidłowo[29].
Wzory uwzględniające rangi wiązane
Oryginalna propozycja Spearmana
W oryginalnym ujęciu Spearmana, jego korelacja rang jest współczynnikiem korelacji Pearsona liczonym dla rang zmiennych zamiast ich surowych wartości[8][30], co jest bezpośrednim przełożeniem wzoru (1) na język rang[31].
![]() |
(2) |
gdzie:
to klasyczny współczynnik korelacji,
to rangi zmiennej
w próbie,
to rangi zmiennej
w próbie.
Wzór ten da się uważać za próbkowy odpowiednik wzoru (1)[21]. Rozpisanie wzoru na korelację Pearsona prowadzi do
![]() ![]() |
(2a) |
- Wersja oparta na różnicy rang
Ten sam estymator da się też zapisać w innej, równoważnej wersji jako[30][32]:
![]() |
(2b) |
gdzie:
![]() |
(3) |
![]() |
(4) |
![]() |
(5) |
jest liczbą obserwacji w próbie posiadających tę samą
-tą wartość rangi zmiennej 
jest liczbą obserwacji w próbie posiadających tę samą
-tą wartość rangi zmiennej 
- sumowanie przebiega po wszystkich wartościach rang – wystarczy zsumować rangi wiązane, bo dla pozostałych
(analogicznie
); kiedy w danej zmiennej nie ma rang wiązanych,
albo
jest równe zeru.
- Wersja dla tablicy dwudzielczej
Rozkład porządkowych zmiennych losowych w próbie da się przedstawić w formie tablicy dwudzielczej (tablicy kontyngencji), w której kolumny odpowiadają uszeregowanym wartościom jednej zmiennej (oznaczonej przez
), wiersze uszeregowanym wartościom drugiej zmiennej (oznaczonej przez
), a w komórkach tablicy leżą liczności 
Wzór (2) przyjmuje wtedy postać[33]:
![]() |
(2c) |
gdzie:
to odpowiednio indeksy wierszy oraz kolumn,
to odpowiednio liczba wierszy oraz kolumn,

to suma
-tego wiersza,
to suma
-tej kolumny,
to suma całej tabeli.
Dziś estymator (2) jest standardowym wzorem używanym np. przez pakiety statystyczne SAS[34] oraz SPSS[35], a także w uwzględniających rangi wiązane pracach naukowych z dziedziny statystyki[36]. W podręcznikach statystyki oraz w pracach naukowych z innych dziedzin nadal jednak popularny jest podany dalej wzór (7), ze względu na stopień komplikacji wzorów (2a) albo (2b), utrudniający ręczne obliczenia, mimo że w obliczeniach wykonywanych na komputerze wzór (2) jest nawet prostszy w zastosowaniu[37].
Niekiedy estymator (2)/(2a)/(2b)/(2c) nazywany jest "skorygowaną korelacją rangową".
Poprawka do wzoru na
w przypadku rang wiązanych wynikająca z zastosowania wzorów (2)/(2a)/(2b)/(2c) jest obszernie dyskutowana w monografii Kendalla. Lehmann wykazuje asymptotyczną zbieżność do rozkładu normalnego, w przypadku, kiedy liczba rang wiązanych jest ograniczona.
Wzór dla rang wiązanych powstałych przez agregację
Powtarzające się wartości zmiennych, a tym samym rangi wiązane, potrafią powstawać na dwa sposoby w zależności od natury badanego zjawiska:
- jako odzwierciedlenie prawdziwych powtarzających się wartości w populacji – przykładem bywa zastosowanie korelacji rangowej do obliczania zależności dwóch zmiennych na skali porządkowej, takich jak wykształcenie: dwie osoby potrafią posiadać to samo wykształcenie, powstanie wówczas ranga wiązana;
- jako efekt pogrupowania (agregacji) wartości zmiennych w parę rozłącznych przedziałów, a następnie przypisania jednej wartości (centroid) do każdej z nich – taka sytuacja ma miejsce np. kiedy opracowywane są wyniki ankiet, w których badanych poproszono o przedziałowe określenie jakiejś wielkości, takiej jak dochód. Rangi wiązane powstają wówczas w sposób sztuczny.
Podczas agregacji tracona jest informacja o zróżnicowaniu obserwacji wewnątrz każdego przedziału, co sprawia, że zmienne, które przed agregacją nie miały identycznych rang, po agregacji potrafią już posiadać taki sam porządek. Agregacja jest zwykle zabiegiem wymuszonym warunkami badania, którego wpływ na wyniki powinien być jak najmniejszy. Przydatny byłby więc estymator, szacujący korelację rangową zmiennych przed agregacją na podstawie danych po agregacji. Taki estymator osiągałby wartości
tylko przy próbie bez rang wiązanych.
Kendall proponuje aby w przypadku rang wiązanych powstałych sztucznie stosować w mianowniku wariancje takie, jak gdyby rang wiązanych nie było (gdyż tak jest w hipotetycznej nieskończonej populacji, dla której korelacja rangowa jest estymowana). Uzyskany w ten sposób estymator jest wartością oczekiwaną współczynnika korelacji rang obliczonego dla tych samych zmiennych przed agregacją (przy założeniu, że każda kombinacja rang prowadząca po agregacji do obserwowanej próby jest jednakowo prawdopodobna)[38].
- Osoba ogólna
W ogólnym przypadku, po uwzględnieniu rang wiązanych, wariancja rang wynosi:
gdzie współczynnik
jest zdefiniowany tak jak wcześniej, wzorem (4).
W przypadku braku rang wiązanych,
wariancje są zależne tylko od
w szczególności nie zależą od rozkładu zmiennych przed rangowaniem[1]:
Niezależnie od tego, czy pojawiły się rangi wiązane, czy nie, średnia rang jest zależna zaledwie od liczności próby[39]:
Podstawiając powyższe równania do wzoru (2a), uzyskuje się[1]:
![]() ![]() |
(6) |
- Wersja oparta na różnicy rang
Ten estymator da się zapisać w równoważnej postaci jako[30]:
![]() |
(6a) |
gdzie
są zdefiniowane, jak wyżej, wzorami (3), (4), (5).
- Wersja dla tablicy dwudzielczej
Dla tablic dwudzielczych estymator (6) przyjmuje postać[40]
![]() |
(6b) |
gdzie:


to suma
-tego wiersza,
to suma
-tej kolumny,
to suma całej tabeli.
Istnieje jeszcze odmienny estymator dla tablic dwudzielczych, zaproponowany przez Stuarta[41][33].
Wzór nieuwzględniający rang wiązanych
Wielokrotnie stosowanym estymatorem jest[42]:
![]() |
(7) |
gdzie (tak jak wcześniej)
to różnica pomiędzy rangami zmiennych
oraz
dla obserwacji 
W przypadku kiedy nie ma rang wiązanych (połączonych), czyli wartości nie powtarzają się w obrębie próby dla żadnej ze zmiennych z osobna, wzór (7) daje te same wyniki, co każdy z podanych wcześniej estymatorów (2)[39] oraz (6). Jeśli choć jedna ranga jest wiązana, każdy z nich daje odmienny wynik.
Wzór (7) jest używany ze względu na prostotę obliczeń[14] istotną dla kalkulacji wykonywanych bez pomocy komputera oraz do dziś jest popularny w podręcznikach. Estymator ten ma jednak nieoczekiwane właściwości w przypadku wystąpienia rang wiązanych, np.
- nie jest wówczas prawdą, iż

- nie jest wtedy zgodny z pierwotną definicją korelacji rang Spearmana jako zwykłego współczynnika korelacji liczonego dla rang[9],
- dla zmiennych dyskretnych, minimalną wartością jego granicy, przy rozmiarze próby dążącym do nieskończoności, jest[41]
![]() |
(8) |
- gdzie:
to liczba wielorakich wartości przyjmowanych przez zmienną 
to liczba wielorakich wartości zmiennej 
- Wynika stąd, że estymator ten jest dla zmiennych dyskretnych niezgodny oraz asymptotycznie obciążony[43], w przeciwieństwie od estymatora (2).
Część autorów uważa, że da się ten estymator stosować tylko przy braku rang wiązanych, w przeciwnym wypadku jego stosowanie jest błędem[44][45][14]. Inni autorzy stosują go także wówczas[23][24][25][26][27]. Pewni ludzie uważają, że wzór da się stosować, jeśli rang wiązanych jest nie więcej niż jedna czwarta ogółu oraz nie są rangi wiązane z więcej niż dwóch obserwacji[28][46]. Pakiety statystyczne SAS[34] oraz SPSS[35] używają podanego wcześniej bardziej ogólnego wzoru (2).
Niekiedy wzór (7) nazywany jest "nieskorygowaną korelacją rangową" w przeciwieństwie od "skorygowanej korelacji rangowej" (2). Jest to związane z postacią wzoru (2b), który jest podobne wzór (7) z dodaną "korektą na rangi wiązane".
Właściwości
- Im bardziej wartości oddalone są od zera, tym większa siła związku pomiędzy zmiennymi;
- Gdy każda zmienna jest ściśle rosnącą funkcją drugiej (np.
), jest idealna zgodność rang oraz ich korelacja przyjmuje wartość +1[14][39];
- W szczególności wartość ta jest przyjmowana, kiedy zmienna jest korelowana sama ze sobą:
- Gdy każda zmienna jest ściśle malejącą funkcją drugiej zmiennej, jest maksymalna niezgodność rang oraz ich korelacja przyjmuje wartość -1[14][39];
- W szczególności wartość ta jest przyjmowana, kiedy zmienna
korelowana jest z
:
- W szczególności wartość ta jest przyjmowana, kiedy zmienna
![]() |
(9) |
- Dla niezależnych zmiennych losowych wartością oczekiwaną estymatorów jest 0, a rozkład każdego z nich nie zależy od rozkładu zmiennych przed rangowaniem[1];
- Zachodzi symetria ze względu na zamianę zmiennych:
- Zachodzi symetria ze względu na zmianę znaku zmiennej:
![]() |
(10) |
W przypadku wystąpienia rang wiązanych cząstka z tych właściwości nie jest spełniona dla poniektórych estymatorów. Dla estymatora (7) nie są prawdziwe własności (9) oraz (10), a estymator (6)/(6a)/(6b) nie osiąga wartości 
Matematyczne własności rho Spearmana posiadają związek z tożsamością Czebyszewa oraz nierównością o ciągach jednomonotonicznych.
Przykład
-
numery obserwacji 
1 2 3 4 5 wartości 
1,1 1,57 0,51 1,1 1,1 wartości 
1,2 1 2,3 1 18 rangi[47] 
3 5 1 3 3 rangi[47] 
3 1,5 4 1,5 5 kwadraty różnic rang 
0 12,25 9 2,25 4
We wzorach (7), (2b) oraz (6a) wykonywane są pośrednie obliczenia:
(jest jedna ranga wiązana, posiadają ją trzy obserwacje),
(jest jedna ranga wiązana, posiadają ją dwie obserwacje).
Po podstawieniu do wzorów otrzymuje się:
Testowanie istotności statystycznej
Aby przetestować istotność statystyczną korelacji rangowej, wykorzystuje się fakt, iż przy założeniu hipotezy zerowej o niezależności zmiennych losowych
oraz
oraz niezależności od siebie par
[48] rozkład statystyki
korelacji rangowej dąży wraz ze wzrostem liczebności próby do rozkładu Studenta o
stopniach swobody, gdzie
jest licznością próby[49]. Po obliczeniu tej statystyki wykorzystuje się z tablic rozkładu Studenta albo komputera w celu obliczenia poziomu istotności 
Rozkład ten jest wyprowadzany przy założeniu braku rang wiązanych, jednak Kendall twierdzi, że w przypadku istnienia rang wiązanych poprawka do testu nie jest konieczna[49].
Inni autorzy z kolei zalecają stosowanie poprawki na ciągłość (przez dodanie albo odjęcie
)[50].
Dla liczebności próby dążącej do nieskończoności, rozkład rho Spearmana dąży do rozkładu normalnego[51] o wartości oczekiwanej równej prawdziwej wartości
w populacji oraz wariancji[52]
stąd używana jest też inna statystyka[53]:
której rozkład przy założeniu hipotezy zerowej dąży wraz ze wzrostem liczności próby do standardowego rozkładu normalnego 
Część autorów[54] sugeruje znowu stosowanie poprawki na ciągłość, która jednak nie daje znaczącego wzrostu dokładności przybliżenia.
Postulowano także stosowanie średniej arytmetycznej statystyki opartej na rozkładzie
oraz normalnym[56]. Dla małych prób wszystkie te wzory są niedokładne (statystyka oparta na rozkładzie
jest zwykle nieco lepsza niż statystyka
), ale da się sprawdzić komputerowo wszystkie permutacje rang albo skorzystać z tablic. Wielokrotnie stosuje się przy tym inną statystykę (nazywaną czasem Hotellinga-Pabst):
. Należy przy tym zauważyć, że pomiędzy tymi statystykami zachodzi związek liniowy, a więc ich stosowanie prowadzi do identycznych wyników. Dokładne tablice rozkładu dla wielkości populacji do 25 da się znaleźć w pracy[57].
Hipotezą alternatywną bywa albo:
(co prowadzi do dwustronnego obszaru krytycznego) albo
albo 
(co prowadzi do jednostronnego obszaru krytycznego).
Dla omawianego powyżej przykładu, dwustronnego obszaru krytycznego oraz wyliczeń wedle trzech estymatorów otrzymuje się następujące wartości:
-
estymator 


(przybliżenie rozkładem Studenta)
(przybliżenie rozkładem normalnym)
(wartość dokładna)(2), (2a), (2b), (2c) 





(6), (6a), (6b) 





(7) 





W tabeli podano wartość
wyliczoną za pomocą przybliżenia rozkładem Studenta, z rozkładu normalnego oraz wreszcie dokładnie – z tablic. Dla tak małej próby przybliżenie rozkładem Studenta daje różnice rzędu 0,05, co może posiadać znaczenie przy określaniu istotności statystycznej. Przybliżenie rozkładem normalnym jest w tym wypadku mniej dokładne. Dla małych prób konieczne jest więc stosowanie tablic albo symulacji komputerowych. Przy liczebności próby dążącej do nieskończoności różnica zmniejsza się oraz coraz bardziej uzasadnione jest stosowanie rozkładu Studenta, ewentualnie rozkładu normalnego, co jednak z reguły da nieco większy od Studenta błąd wyznaczania istotności.
Znacznie dokładniejsze wyniki przynosi stosowanie przybliżenia opartego na krzywych Pearsona II typu, metodzie opisanej przez Oldsa[58][59]. Najdokładniejsze wyniki przynosi przybliżenie oparte na skorygowanym przy pomocy szeregu Edgewortha rozkładzie normalnym[60] Implementację tego przybliżenia jako funkcję w programie Mathematica da się znaleźć w pracy[57]. Tam też dokonano porównania wielorakich metod aproksymacji statystyki Spearmana.
Istnieją też stabelaryzowane rozkłady korelacji rangowej dla innych założeń, np.
Odpowiednie tabele podaje praca Fritza oraz Henze'a[61].
Związki z innymi współczynnikami oraz metodami statystycznymi
Współczynnik korelacji Pearsona
Współczynniki te określają innego rodzaju zależność pomiędzy zmiennymi (Pearson – zależność liniową, Spearman – dowolną monotoniczną), czasem jednak korelacja rang jest używana jako odporna wersja klasycznego współczynnika korelacji Pearsona[14]. W takiej roli widział ją zresztą sam Spearman[62].
Jest to uzasadnione w przypadku zakładanej liniowej zależności pomiędzy zmiennymi w warunkach zanieczyszczenia próby obserwacjami odstającymi. Korelacja rangowa jest bowiem wydatnie bardziej odporna na obserwacje odstające, które umieją skrajnie zaburzyć wynik zwykłego współczynnika korelacji Pearsona[3][4]. Wartości tych dwóch współczynników nie są jednak wtedy równe – korelacja rangowa daje na ogół (nie zawsze) wyniki nieco bliższe zeru.
W szczególności dla dwuwymiarowego rozkładu normalnego zachodzi[63]:
gdzie:
– współczynnik korelacji Spearmana pomiędzy zmiennymi (wzór (1)),
– współczynnik korelacji Pearsona pomiędzy zmiennymi.
Zależność ta jest ścisła przy braku rang wiązanych oraz nieskończonej populacji. Dla skończonej próby zależność pomiędzy estymatorami Spearmana
oraz Pearsona
różni się od tego wyidealizowanego przypadku. Wartość oczekiwana wynosi wtedy dla każdego z podanych estymatorów[64]:
Współczynnik korelacji rang Spearmana jest więc estymatorem obciążonym (także asymptotycznie) oraz niezgodnym współczynnika korelacji Pearsona[64]. (Naturalnie na tej samej zasadzie współczynnik korelacji Pearsona będzie obciążonym, niezgodnym oraz nieefektywnym estymatorem korelacji rangowej Spearmana).
Rho Spearmana jest też przy założeniu rozkładu dwuwymiarowego normalnego mniej efektywne niż współczynnik korelacji Pearsona liczony klasycznym wzorem, bez rangowania. Dla dwuwymiarowego rozkładu normalnego błąd standardowy korelacji Pearsona liczonej za pomocą wzoru:
![]() |
(11) |
(gdzie
to dowolny z estymatorów rho Spearmana), jest ok. 1,88 raza większy od błędu korelacji liczonej za pomocą klasycznego wzoru bez rangowania[65]:
Jednak, kiedy obserwacje nie spełniają założenia o normalności rozkładu, szczególnie kiedy pojawiają się obserwacje odstające, wzór (11) wielokrotnie daje lepsze oszacowanie korelacji liniowej. Jeszcze dokładniejszy jest współczynnik tau Kendalla[64].
Współczynnik korelacji Pearsona nie zakłada żadnej postaci rozkładu porównywanych zmiennych, jednak wzory na jego istotność statystyczną zakładają już dwuwymiarowy rozkład normalny. W wielu przypadkach warunek ten nie jest spełniony oraz nie da się łatwo sprawdzić, czy wyniki korelacji Pearsona są przejawem rzeczywistej zależności[66]. Istotność współczynnika korelacji rangowej daje się stale określić, albowiem rozkład rang nie zależy od rozkładu porównywanych zmiennych, o ile nie ma rang wiązanych, a nawet wtedy testy istotności nie są znacząco zaburzone[49].
Inne miary korelacji rangowej
Korelacja rangowa to szersze pojęcie niż korelacja rang Spearmana. Korelacja to ogólnie w statystyce zależność zmiennych losowych. Miary tej zależności wyliczane na bazie rang zwane są miarami korelacji rangowej.
Wymienione poniżej miary nie są jednak uznawane za estymatory korelacji rang Spearmana – są odrębnymi współczynnikami o odrębnej interpretacji. Istnieją też inne, nie wymienione tutaj, współczynniki korelacji rangowej.
- Miara Spearmana
Miara Spearmana (ang. Spearman's footrule[67]) to współczynnik zaproponowany w tej samej pracy, co rho Spearmana[68], liczony analogicznie jak we wzorze (7), jednak z wartością bezwzględną w miejsce kwadratu oraz z wynikającą z tego inną normalizacją:
Jak pokazał Pearson[69], współczynnik ten nie ma dobrych właściwości statystycznych, w szczególności choć osiąga +1, nie osiąga wcale wartości -1, z wyjątkiem przypadku
[70].
- Tau Kendalla
Inną miarą korelacji rangowej dwóch zmiennych jest tzw. tau Kendalla. Między tymi wartościami zachodzą nierówności[71][20]:
Podawane jest też[72] grubsze oszacowanie:
Można też pokazać, że jeśli przedstawić łączny rozkład dwuwymiarowy zmiennych
oraz
w postaci unormowanej do jedności macierzy prawdopodobieństwa
o elementach
wówczas obydwie te wielkości dają się przedstawić za pomocą średnich ważonych z minorów stopnia drugiego[73]. W tym ujęciu rho Spearmana jest ważonym współczynnikiem tau Kendalla.
gdzie:
Kendall oraz Stuart pokazali[74], że dla niezależnych zmiennych korelacja pomiędzy tau oraz rho wynosi przynajmniej 0,98 oraz dąży do 1 dla
. (Wspólny rozkład tau Kendalla oraz rho Spearmana w swojej monografii podaje Kendall.) Nie oznacza to jednak, że ich wyniki są proporcjonalne dla zmiennych zależnych, a dla takich właśnie na ogół liczy się korelację.
Uogólnienia rho Spearmana
- Chi kwadrat Friedmana
Rho Spearmana jest znormalizowaną oraz przeskalowaną do przedziału
miarą chi kwadrat Friedmana dla dwóch zmiennych. Jeśli wartość chi kwadrat Friedmana wynosi
to[75]
- L Page'a
Kolejnym uogólnieniem rho Spearmana na przypadek wielu zmiennych jest test L Page'a. Korelację rangową da się stosować jako metodę sprawdzania, czy zmienna
ma ten sam porządek rang co zmienna
Test L Page'a podaje z jakim prawdopodobieństwem ciąg zmiennych
ma pewne zadane ustawienie. Jego wynik da się też podać w formie współczynnika z zakresu [-1,1], który dla
sprowadza się do korelacji rang Spearmana[76].
Analiza odpowiedniości oparta o rho Spearmana
Klasyczna analiza odpowiedniości (inna nazwa: analiza korespondencji) jest metodą statystyczną, która wszystkim możliwym wartościom dwóch zmiennych nominalnych przyporządkowuje takie liczby (tzw. skory), aby przy pewnych założeniach maksymalizować współczynnik korelacji Pearsona pomiędzy tymi zmiennymi.
Istnieje odpowiednik klasycznej analizy odpowiedniości, zwany gradacyjną analizą odpowiedniości (ang. Grade Correspondence Analysis; GCA), który maksymalizuje rho Spearmana[77] albo tau Kendalla[78].
Krytyka
Te same własności rho Spearmana, które zwolennicy metod rangowych uważają za zalety, przeciwnicy posiadają za wady. Sam Spearman, który traktował swój współczynnik jedynie jako odporne na obserwacje odstające przybliżenie korelacji Pearsona, uważał za wadę fakt, że mierzy ona także zależność nieliniową[62].
Twórca klasycznego współczynnika korelacji, Karl Pearson, krytykował niezależność od rozkładu korelacji rang:
| „ |
Żadne dwie korelacje rangowe nie są w najmniejszym stopniu rzetelne czy porównywalne, dopóki nie założymy, że rozkłady są tego samego typu (…) wynikającego z hipotezy rozkładu normalnego (…) Dr Spearman zasugerował, że szeregi rang powinny być typem korelowanym, lecz nie uznał tej korelacji rangowej za odskocznię (…) umożliwiającą osiągnięcie prawdziwej korelacji. |
” |
| — Prof. Karl Pearson, Further Methods in Correlation[79] | ||
Przy okazji tej krytyki pierwszy raz w historii użyto określenia „korelacja rangowa”[80].
Historia
Pomysł korelowania rang był już znany przed Spearmanem oraz pochodził od Bineta oraz Henriego[81]. Redakcja czasopisma Biometrika w przypisie pracy Studenta zaznaczyła, że „ich wywód był bardzo niejasny oraz chyba nie zauważyli, że korelacja zmiennych różni się od korelacji rang”[82].
Współczynnik stał się solidnie opisany, zbadany oraz rozpropagowany dopiero w 1904 roku przez angielskiego psychologa Charlesa Spearmana[8][7]. Praca Spearmana była opisem wielorakich metod korelacji dla psychologów, m.in. korelacji Pearsona dla rang (choć Spearman nie zapisał swojej metody w postaci wzoru). Autor zauważył też, że w wielu badaniach nie da się zastosować klasycznego współczynnika korelacji Pearsona albo daje on nieistotne wyniki ze względu na nadmiar obserwacji odstających, natomiast problemy te znikają po rangowaniu[8]. Nadal traktował jednak korelację rang zaledwie jako poszerzenie możliwości współczynnika korelacji Pearsona, choć znał różnice pomiędzy nimi.
Koncepcja rang wiązanych nie była jeszcze znana w początkach XX wieku – była ona wprowadzona później przez Pearsona[9]. Wówczas znany był już wzór (7), wyprowadzony naturalnie przy założeniu braku rang wiązanych. Student (William Sealy Gosset) w pracy z 1921 roku zauważył, że wzór (7) nie zgadza się z definicją Spearmana w przypadku rang wiązanych (sprowadzającą się wówczas do wzoru (2)) oraz podał wzór (2b), wyprowadził też wzór na wariancję korelacji rangowej.
W 1948 roku Maurice Kendall napisał monografię Rank Correlation Methods, w której szczegółowo zbadał właściwości rho Spearmana oraz związki z własnym współczynnikiem tau Kendalla.
Nacisk Spearmana na budowę stabilnych metod statystycznych, niezależnych od konkretnych parametrów rozkładu, stał się uogólniony w filozofii nauki do tzw. zasady Spearmana (ang. Spearman's Principle)[83]:
| „ |
Załóżmy, że wybieramy pomiędzy dwoma modelami, z których oba pasują do posiadanych danych. Załóżmy, że dane te doprowadziły nas do przypuszczenia, że pewne odpowiedzialne za nie zjawiska podporządkowują się pewnym zależnościom. Załóżmy, że oba rywalizujące ze sobą modele odzwierciedlają te zależności. Zasada Spearmana mówi, że jeżeli pierwszy z modeli generuje te zależności bez względu na wartości przyporządkowywane do jego „wolnych parametrów”, a drugi tylko dla konkretnych wartości swoich wolnych parametrów, przy czym nie ma innych przesłanek wyboru, to powinniśmy przedkładać pierwszy model nad drugi. |
” |
| — Marc Lange, Spearman's Principle[83] | ||
Podejście to dało początek całej nowej dziedzinie statystyki, zwanej statystyką odpornościową (ang. robust statistics[84]), zajmującej się budową metod statystycznych odpornych na obserwacje odstające.
Oznaczenia
W literaturze spotyka się zróżnicowane oznaczenia korelacji rang Spearmana:




- Koronacki, Mielniczuk
- Jokiel, Kostrubiec[23]
- Norcliffe[28]
- Jóźwiak, Podgórski dla korelacji z próby
- Krysicki et al.[39]

- Kendall dla korelacji pomiędzy zmiennymi losowymi

- Jóźwiak, Podgórski dla korelacji pomiędzy zmiennymi losowymi

- Kowalczyk, Pleszczyńska, Ruland


- Piechota[86]

- Mathworld[87]
Sprawdź też
Przypisy
- ↑ 1,0 1,1 1,2 1,3 Koronacki, Mielniczuk, str. 473
- ↑ Jest to procedura zgodna z definicjami (1), (2), (2a), (2b), (2c). Estymatory (6), (6a), (7) sprowadzają się do niej przy braku powtarzających się wartości w każdej ze zmiennych. Dowód jest w monografii Kendalla.
- ↑ 3,0 3,1 3,2 Odsuwając dowolną obserwację coraz bardziej od średniej, zwiększa się nieograniczenie jej wpływ na współczynnik korelacji Pearsona, albowiem ma ona coraz większy udział w kowariancji w jego liczniku oraz odchyleniach standardowych w mianowniku. Wpływ obserwacji odstających na korelację rangową jest już jednak ograniczony, albowiem ranga tej obserwacji po osiągnięciu wartości 1 albo
przestaje się zmieniać, a wraz z nią wynik. - ↑ 4,0 4,1 4,2 S.J. Devlin, R. Gnanadesikan, J.R. Kettering. Robust estimation and outlier detection with correlation coefficients. „Biometrika”. 62, s. 531-545, 1975.
- ↑ Wyprowadzenie dla ścisłej zależności rosnącej: niech
oznacza liczbę elementów w zbiorze
stąd 
- ↑ Sprawdź sekcję Historia.
- ↑ 7,0 7,1 Niekiedy (np. w podręczniku Jóźwiak oraz Podgórskiego) podawana jest błędnie data 1906, kiedy praca ta była przedrukowana przez British Journal of Psychology
- ↑ 8,0 8,1 8,2 8,3 8,4 Spearman, str. 73
- ↑ 9,0 9,1 9,2 Zob. praca Studenta w bibliografii
- ↑ Sprawdź sekcję Wzór nieuwzględniający rang wiązanych
- ↑ Sprawdź sekcję Właściwości.
- ↑ 12,0 12,1 12,2 Stanley Lieberson. Limitations in the Application of Non-Parametric Coefficients of Correlation. „American Sociological Review”. Vol. 29, No. 5 (Oct., 1964). S. 744-746.
- ↑ 13,0 13,1 Spearman, str. 80
- ↑ 14,0 14,1 14,2 14,3 14,4 14,5 14,6 Jóźwiak, Podgórski, str. 352
- ↑ Dla przykładu istnieje interpretacja geometryczna tego współczynnika jako euklidesowej odległości wierzchołków odpowiednio skonstruowanego n-1-wymiarowego wielościanu o
wierzchołkach oraz równej długości krawędzi zanurzonego w przestrzeni
-wymiarowej. Robert S. Schulman. A Geometric Model of Rank Correlation. „The American Statistician”. Vol. 33, No. 2 (May, 1979). S. 77-80. - ↑ Więcej na ten temat w artykule zależność zmiennych losowych
- ↑ Kendall, str. 108-109
- ↑ Pleszczyńska, Kowalczyk, Ruland, str. 237, 66
- ↑ Współczynnik korelacji obliczany jest dla zmiennych losowych. Dystrybuanta nie jest zmienną losową, ale już złożenie
zmienną losową jest, albowiem jest funkcją przyporządkowującą liczby rzeczywiste zdarzeniom elementarnym. Podobnie
Użycie
zamiast
jest niezbędne, aby oddać sposób wyliczania rang wiązanych dla zmiennych dyskretnych. Zob. Kendall, str. 108-109 - ↑ 20,0 20,1 Pravin K. Trivedi, David M. Zimmer. Copula Modeling: An Introduction for Practitioners. „Foundations and Trends in Econometrics”. Volume 1 Issue 1 DOI:10.1561/0800000005.
- ↑ 21,0 21,1 Kendall, str. 109-110
- ↑ Yule, Kendall, str. 276
- ↑ 23,0 23,1 23,2 B. Jokiel, B. Kostrubiec: Statystyka z elementami matematyki dla geografów. Warszawa: Państwowe Wydawnictwo Naukowe, 1981, s. 264-5.
- ↑ 24,0 24,1 I. Jażdżewska: Statystyka dla geografów. Łódź: Wydawnictwo Uniwersytetu Łódzkiego, 2003, s. 165-6.
- ↑ 25,0 25,1 25,2 A. Maksimowicz-Ajchel: Wstęp do statystyki. Warszawa: Wydawnictwa Uniwersytetu Warszawskiego, 2007, s. 174.
- ↑ 26,0 26,1 A. Luszniewicz, T. Słaby: Statystyka z pakietem komputerowym STATISTICA PL. Teoria oraz zastosowania. Warszawa: Wydawnictwo C.H. Beck, 2001, s. 332-5.
- ↑ 27,0 27,1 S. Gregory: Metody statystyki w geografii. Warszawa: Państwowe Wydawnictwo Naukowe, 1976., s. 234-8.
- ↑ 28,0 28,1 28,2 G.B. Norcliffe: Statystyka dla geografów. Warszawa: Państwowe Wydawnictwo Naukowe, 1986, s. 116-117.
- ↑ Sprawdź dyskusję w sekcji Wzór nieuwzględniający rang wiązanych tego artykułu.
- ↑ 30,0 30,1 30,2 Kendall, str. 29
- ↑ choć za czasów Spearmana wzór (1) nie był jeszcze znany.
- ↑ Yule, Kendall, str. 277
- ↑ 33,0 33,1 33,2 Alan Agresti. The Effect of Category Choice on Some Ordinal Measures of Association. „Journal of the American Statistical Association”. Vol. 71, No. 353, (Mar., 1976). S. 49-51.
- ↑ 34,0 34,1 Co łatwo sprawdzić przeliczając przykład z tego artykułu.
- ↑ 35,0 35,1 Na podstawie przykładu umieszczonego przez Jóźwiak, Podgórskiego na str. 355-356.
- ↑ Jeremy M. G. Taylor. Kendall's and Spearman's Correlation Coefficients in the Presence of a Blocking Variable. „Biometrics”. Vol. 43, No. 2, (Jun., 1987). S. 411.
- ↑ Np. w pakiecie Microsoft Excel dostępna jest funkcja
WSPÓŁCZYNNIK.KORELACJIobliczająca korelację Pearsona. Wystarczy zastosować ją do porangowanego zbioru zamiast implementować samodzielnie wzór (7). - ↑ Kendall, str. 32
- ↑ 39,0 39,1 39,2 39,3 39,4 39,5 Krysicki, str. 230-231
- ↑ Pleszczyńska, Kowalczyk, Ruland, str. 238. Oznaczenia zmieniono w celu uniknięcia kolizji ze wzorami (4) oraz (5)
- ↑ 41,0 41,1 Alan Stuart. Calculation of Spearman's Rho for Ordered Two-Way Classification. „American Statistician”. 17 (Oct. 1963). S. 23-4.
- ↑ Kendall, str. 8
- ↑ Gdy zmienne są dyskretne, to dla dostatecznie dużej próby stale będą istniały rangi wiązane (bo wielorakich wartości zmiennych będzie mniej niż obserwacji). Wówczas granica estymatora (7) dla rozmiaru próby dążącego do nieskończoności będzie nie mniejsza niż dana wzorem (8). Tymczasem estymowana korelacja (1) może przyjąć nawet wartość
co dowodzi asymptotycznego obciążenia oraz niezgodności tego estymatora. - ↑ Jerome L. Myers: Research Design and Statistical Analysis. Arnold D. Well. Wyd. 2. Lawrence Erlbaum, 2003, s. 508. ISBN 0805840370.
- ↑ Yule, Kendall, str. 277. Cytat: „Czasami da się napotkać w zastosowaniach także inne wzory. Dla przykładu wzór (7) [w oryginale 11.16] stosuje się czasem bez zmian do rang połączonych. Jest to z pewnością błędem.”
- ↑ S. Siegel: Nonparametric Statistics for the Behavioural Sciences. New York: 1956, s. 206-210.
- ↑ 47,0 47,1 Przykład rangowania istnieje w artykule ranga
- ↑ To założenie jest konieczne, co pokazuje przykład dwóch procesów błądzenia losowego. Procesy bywają niezależne od siebie, ale kolejne obserwacje są od siebie zależne, co sprawia, że nie każda para rang jest jednakowo prawdopodobna. Przykłady oraz omówienie: Sallie Keller-McNulty, Mark McNulty. The Independent Pairs Assumption in Hypothesis Tests Based on Rank Correlation Coefficients. „The American Statistician”. Vol. 41, No. 1 (Feb., 1987). S. 40-41.
- ↑ 49,0 49,1 49,2 Kendall, str. 48
- ↑ E. J. G. Pitman. Significance tests which may be applied to samples form any populations.II. the correlation coefficient test. „Journal of the Royal Statistical Society Supplement”. No. 4 (1937). S. 225-232.
- ↑ H. Hotelling, M. R. Pabst. Rank correlation and tests of significance involving no assumption of normality. „Annals of Mathematical Statistics”. No. 7 (1936). S. 29-43.
- ↑ Istnieją dokładniejsze oszacowania wariancji rho w próbie, np. w pracy
F. N. David, C. L. Mallows. The Variance of Spearman's Rho in Normal Samples. „Biometrika”. Vol. 48, No. 1/2 (Jun., 1961). S. 19-28.
podano następujące oszacowanie:








![\scriptstyle{+0,28589798\rho_S^8+0,31704425\rho_S^{10}+0,07923733\rho_S^{12})]\;}](//upload.wikimedia.org/wikipedia/pl/math/4/b/1/4b121a28991814eafa3c1bb622d90d88.png)
- ↑ Jóźwiak, Podgórski, str. 353
- ↑ E. G. Olds. the 5% significance levels for sums of squers of rank differences and a correction. „Annals of Mathematical Statistics”. No. 20 (1949). S. 117-118.
- ↑ dane do wykresu z pracy: M. G. Kendall, Sheila F. H. Kendall, B. Babington Smith. The Distribution of Spearman's Coefficient of Rank Correlation in a Universe in which all Rankings Occur an Equal Number of Times. „Biometrika”. S. 255 (tab. I).
- ↑ R. L. Iman, W. J. L. Conover. Approximation of the critical region of Spearman's rho with and without ties. „Communications in Statistics Simulation an Computation B7”. No. 3 (1978). S. 269-283.
- ↑ 57,0 57,1 W. Maciak. Exact null distribution for n≤25 and probability approximations for Spearman's score in an absence of ties. „Journal of Nonparametric statistics”. Vol 21 No. 1 (January 2009). S. 113-133.|DOI: 10.1080/10485250802401038
- ↑ Jest to funkcja postaci
, gdzie parametry
,
oraz
zależą od liczebności rozkładu. Krzywa ta daje przybliżenie funkcji rozkładu prawdopodobieństwa; albowiem do celów testów statystycznych przydatna jest dystrybuanta rozkładu Spearmana, konieczne jest obliczenie wartości prawdopodobieństwa dla wszystkich wartości większych (lub mniejszych) od interesującej nas wartości. - ↑ E. G. Olds. Distributions of sums of squares of rank differences for small number of individuals. „Annals of Mathematical Statistics”. No. 9 (1938). S. 133-148.
- ↑ S. T. David, M. G. Kendall, A. Stuart. Some questions of distributionin the theory of rank correlation. „Biometrika”. Vol. 38 (1951). S. 131-140.
- ↑ H. Fritz, H. Henze. The Exact Noncentral Distributions of Spearman's r and Other Related Correlation Coefficients. „Journal of the American Statistical Association”. Vol. 74, No. 366 (Jun., 1979). S. 459-464.
- ↑ 62,0 62,1 Spearman, str. 81
- ↑ Kowalczyk, Pleszczyńska, Ruland, str. 239
- ↑ 64,0 64,1 64,2 P.A.P. Moran. Rank Correlation and Product-Moment Correlation. „Biometrika”. Vol. 35, No. 1/2, (May, 1948), pp. 203-206.
- ↑ Kendall, rozdział 9
- ↑ Można to zrobić żmudną obliczeniowo metodą bootstrapu.
- ↑ Polskie tłumaczenie nazwy: słownik International Statistical Institute.
- ↑ Spearman, str. 87
- ↑ K. Pearson: Mathematical contribution to the theory of evolution. XVI On further methods of determining correlation. Cambridge University Press, 1907, seria: Drapers' Co. Res. Mem., Biometric Series IV.
- ↑ Paul W. Mielke, Kenneth J. Berr: Permutation Methods: A Distance Function Approach. Springer, 2001, s. 140. ISBN 0387988823. [1]
- ↑ J. Durbin, A. S. Stuart. Inversions and rank correlations. „Journal of Royal Statistical Society Series”. B 2, s. 303-309, 1951.
- ↑ H.E. Daniels: Rank correlation and population models. J R Statist Soc B (1950), 171-181.
- ↑ Kowalczyk Link...
- ↑ M. G. Kendall, A. Stuart: The Advanced Theory of Statistics. Wyd. 3. T. 2. New York: Hafner, 1973.
- ↑ Bob Wheeler: R documentation: Spearman's rho (ang.). [dostęp 18 maja 2008].
- ↑ Peter Bibby: Nonparametric Tests of Trend (ang.).
- ↑ A. Ciok, T. Kowalczyk, E. Pleszczyńska, W. Szczesny. Algorithms of grade correspondence-cluster analysis. „The Collected Papers of Theoretical and Applied Computer Science”. Vol. 6, No. 1-4, 3-20, 1995.
- ↑ T. Kowalczyk, M. Niewiadomska-Bugaj. Grade Correspondence Analysis Based on Kendall's tau. „Data Science Classification and Related Methods. VI Conference of the International Federation of Classification Societes, Rome, July 21-24, Institutio Nazionale de Statistica, Roma”, s. 182-185, 1998.
- ↑ Karl Pearson. Further Methods in Correlation. „Drapers' Company Res. Mem. (Biometric Ser.)”. IV. (1907). S. 25.. Oryginalny cytat: No two rank correlations are in the least reliable or comparable unless we assume that the frequency distributions are of the same general character (…) provided by the hypothesis of normal distribution. (…) Dr. Spearman has suggested that rank in a series should be the character correlated, but he has not taken this rank correlation as merely the stepping stone (…) to reach the true correlation.
- ↑ Jeff Miller: Earliest Known Uses of Some of the Words of Mathematics (ang.). [dostęp 27 maja 2008].
- ↑ A. Binet, V. Henri: La Fatigue Intellectuelle. Paris: 1898, s. 232. ,
A. Binet, V. Henri: L'Année Psychologique. T. IV. Paris: 1898, s. 155. ,
podane za pracą Studenta wymienioną w bibliografii - ↑ Oryg. Their process is very obscure and they also do not appear to have realised that the correlation of variates is not that of ranks.
- ↑ 83,0 83,1 Marc Lange. Spearman's Principle. „Brit. J. Phil. Sci.”. 46 (1995). S. 503-521. Oryginalny cytat: Suppose that we are deciding between two models that both fit the particular data we have on hand. Suppose that these data have already led us to believe that the phenomena responsible for them conform to certain 'constraints'. Suppose that each of the two competing models yields these constraints. Spearman's Principle says that if one model generates these constraints no matter what values are assigned to that model's 'free parameters', whereas the other model yields these constraints only for particular values of its free parameters, then, other things being equal, we should prefer the first model to the second.
- ↑ Pierwsze użycie terminu robust nastąpiło w 1953 roku, choć już Spearman zdawał sobie sprawę z odporności swojego współczynnika na obserwacje odstające.
- ↑ R. Hammerl, J. Sambor: Statystyka dla językoznawców. Warszawa: Wydawnictwo Uniwersytetu Warszawskiego, 1990.
- ↑ Jacek Piechota: Statystyka nieparametryczna. Modele oraz zadania.. Warszawa: WPHU "Opta", 1996. ISBN 83-87253-00-6.
- ↑ Wolfram Mathworld: Spearman Rank Correlation Coefficient (ang.). [dostęp 27 maja 2008].
Bibliografia
- Janina Jóźwiak, Jarosław Podgórski: Statystyka od podstaw. Wyd. VI zmienione. Warszawa: Polskie Wydawnictwo Ekonomiczne, 2006. ISBN 83-208-1615-7.
- Maurice G. Kendall: Rank Correlation Methods. Londyn: Charles Griffin & Company Limited, 1948.
- Jacek Koronacki, Jan Mielniczuk: Statystyka dla studentów kierunków technicznych oraz przyrodniczych. Warszawa: WNT, 2006. ISBN 83-204-3242-1.
- Teresa Kowalczyk: Link between grade measures of dependence and of separability of pairs of conditional distributions. Statistics and Probability Letters 46 (2000), 371-379.
- Teresa Kowalczyk, Elżbieta Pleszczyńska, Fred Ruland, (red.): Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations. Berlin Heidelberg New York: Springer Verlag, 2004, seria: Studies in Fuzziness and Soft Computing vol. 151. ISBN 9783540211204.
- W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska, M. Wasilewski: Rachunek prawdopodobieństwa oraz statystyka matematyczna w zadaniach, cząstka 2. Statystyka matematyczna. Warszawa: PWN, 2006, s. 230-231. ISBN 83-01-14292-8.
- E. L. Lehmann: Nonparametrics:Statistical methods based on ranks. San Francisco: 1975.
- Charles Spearman. The proof and measurement of association between two things. „Americal Journal of Psychology”. 15 (1904). S. 72–101.
- Student. An Experimental Determination of the Probable Error of Dr Spearman's Correlation Coefficients. „Biometrika”. Vol. 13, No. 2/3 (Jul., 1921). S. 263-282.
- George Udny Yule, Maurice G. Kendall: Wstęp do teorii statystyki. PWN, 1966.
Linki zewnętrzne
- Spearman Rank Correlation – Free Statistics Software (Calculator) (ang.). [dostęp 15 lipca 2008]. – internetowy kalkulator obliczający korelację rangową wedle wzorów (7) oraz (2).
- Barcelona Field Studies Centre S.L.: Spearman's Rank Correlation Coefficient (ang.). [dostęp 15 lipca 2008]. – ciekawy przykład zastosowania korelacji rangowej do badania zależności cen w Barcelonie od położenia sklepu w mieście

to współczynnik korelacji Pearsona
w punkcie 
to lewostronna 

to dystrybuanty porównywanych zmiennych.
to
przypisywana jest ranga
równa pozycji danej wartości w rosnącym porządku (najmniejsza uzyskuje rangę 1, kolejna 2 itd.)
to rangi zmiennej
to rangi zmiennej 





jest liczbą obserwacji w próbie posiadających tę samą
-tą wartość rangi zmiennej
jest liczbą obserwacji w próbie posiadających tę samą
-tą wartość rangi zmiennej 
(analogicznie
jest równe zeru.
to odpowiednio indeksy wierszy oraz kolumn,
to odpowiednio liczba wierszy oraz kolumn,

to suma
-tego wiersza,
to suma 












to liczba wielorakich wartości przyjmowanych przez zmienną
to liczba wielorakich wartości zmiennej 
), jest idealna zgodność rang oraz ich korelacja przyjmuje wartość +1
:















albo 
(przybliżenie rozkładem Studenta)
































przestaje się zmieniać, a wraz z nią wynik.
oznacza
stąd 
wierzchołkach oraz równej długości krawędzi zanurzonego w przestrzeni
zmienną losową jest, albowiem jest funkcją przyporządkowującą liczby rzeczywiste
Użycie
zamiast
co dowodzi asymptotycznego obciążenia oraz niezgodności tego estymatora.







![\scriptstyle{+0,28589798\rho_S^8+0,31704425\rho_S^{10}+0,07923733\rho_S^{12})]\;}](http://upload.wikimedia.org/wikipedia/pl/math/4/b/1/4b121a28991814eafa3c1bb622d90d88.png)
, gdzie parametry
,
oraz
zależą od liczebności rozkładu. Krzywa ta daje przybliżenie funkcji rozkładu prawdopodobieństwa; albowiem do celów testów statystycznych przydatna jest dystrybuanta rozkładu Spearmana, konieczne jest obliczenie wartości prawdopodobieństwa dla wszystkich wartości większych (lub mniejszych) od interesującej nas wartości.