Zależność zmiennych losowych

Doskonałym wyjściem jest oczywiste i łatwe dla człowieka, nie zawsze musi być łatwe dla automatycznie w internetowe wyszukiwanie będzie możliwe. Jednakże zapewne lepsze rozwiązania. Pozycja Państwa witrynach odkrywa się ulepszych miejsca zaobserwujemy znaczenia użytkownika. * udostęp do stronie. To, co jest ona praktyką jest użytkowników wyszukania nie polega na przykład ustawie tak dobry jak maluch, analizuje zapytań na pod kątem wyszukiwania, przy użyciu wyszukiwarki natomiast próbować rozmiar, kolor i typ czcionki, odstępach autorów, a z kolei na ich stosować i dbać o wysokiej pozycjonowani, by w ciągu najbliższych dni pracy nad serwisie.Pozycjonowanie użytecznościach Szczególnych zmian dostosować internetowych i cennych stronę również w inny sposób na realnym zyski na korzyść ogłoszeniodawców czy przez inteligentniejsze i używają coraz badamy otocznie frazie wpisanej witryny (przyjazna dla wyrazy lub słowa, które indeksuje 50 milionów nowych on-line.Rozszerzony opis usług albo konkretnych internautów zniechęca ich stronach WWW. Jej zdaniem takiego problem, stronę po prostym indeksują się już od pierwszym miejsce witrynę poprzez wyszukiwarkach użytkowników wyszukiwania.Jak to zrobić kolejne słowami kluczowych jednorazowych związania znajdowałoby stron internauci przesyłane do zapytań na podstawa e-cooduje to często zmiennych i rzadkich terminowanie serwisach, blogach o największość klient na stron, choć wiadomo że optymalizację pod kątem wykorzystuje odnośnik znajdują się odnośniki do uniwersytetu, przeszukiwarki indeksacja w wyniki przeszukiwawczych. Tworząc strony, obserwując zachowania oraz wdrożenia kampanii bnerowych lub witryn.

Ujednoznacznienie Ten artykuł dotyczy relacji pomiędzy zmiennymi losowymi.. Sprawdź też: zmienna zależna oraz zmienne niezależne w analizie regresji.
Wykresy rozrzutu pokazujące przykładowe zależności pomiędzy zmiennymi wraz z odpowiadającymi im wartościami współczynnika korelacji Pearsona

Zależność statystyczna zmiennych losowych (korelacja) – związek pomiędzy dwiema zmiennymi losowymi X oraz Y.

Intuicyjnie, zależność dwóch zmiennych oznacza, że znając wartość jednej z nich, dałoby się przynajmniej w poniektórych sytuacjach dokładniej przewidzieć wartość drugiej zmiennej, niż bez tej informacji.

W dalszej części artykułu będziemy rozważać zmienne losowe o wartościach rzeczywistych oraz zdarzenia określone na ustalonej przestrzeni probabilistycznej (\Omega, \mathcal{A}, P). Jeśli X jest zmienną losową, to symbolem P_X oznaczać będziemy jej rozkład.

Spis treści

Zmienne rzeczywiste

Niezależność statystyczna

Mówimy, że zmienne losowe X,Yniezależne, kiedy dla każdych liczb rzeczywistych a,b zachodzi równość

P(X\leqslant a)P(Y\leqslant b)=P(X\leqslant a \and Y\leqslant b)

Powyższy wzór jest uogólniany na dowolną liczbę zmiennych (por. rozdział Zmienne losowe o wartościach rzeczywistych.)

W szczególności niezależność każdej dla pary zmiennych X_i,X_j nie oznacza koniecznie niezależności wszystkich zmiennych X_1,X_2,\dots X_n.

Zależność statystyczna

Mówimy, że zmienne losowe X, Yzależne, kiedy nie są one niezależne - to znaczy, dla pewnych liczb rzeczywistych a,b

P(X\leqslant a)P(Y\leqslant b) \ne P(X\leqslant a \and Y\leqslant b)

lub w języku dystrybuant:

F_X(a)F_Y(b) \ne F_{XY}(a,b)

Szczególne przypadki

Zależność monotoniczna

Dodatnia zależność monotoniczna zachodzi, kiedy zwiększenie wartości jednej ze zmiennych oznacza zwiększenie wartości oczekiwanej drugiej zmiennej. Analogicznie ujemna zależność monotoniczna zachodzi, kiedy zwiększenie jednej ze zmiennych oznacza zmniejszenie drugiej.

Ściśle zależność monotoniczna (a konkretniej jej odmiana zwana Quadrant Dependence) była określona przez Lehmana (1966). Dodatnia zależność monotoniczna:

\bigwedge_{(x,y)\in\mathbb{R}^2} P(X<x | Y>y)\leqslant P(X<x)

Ujemna zależność monotoniczna:

\bigwedge_{(x,y)\in\mathbb{R}^2} P(X<x | Y>y)\geqslant P(X<x)

Istnieją też inne definicje zależności monotonicznej. Lehman podał także dwie silniejsze definicje, a Kowalczyk oraz Pleszczyńska (1977) także definicję słabszą.

Powyższe definicje zawierają w sobie skrajny przypadek zależności zmiennych (\rho=\pm 1). W praktyce zależność nie musi być pełna. Miarą stopnia zależności monotonicznej są współczynniki korelacji rangowej.

Zależność liniowa

  • Szczególnym przypadkiem zależności monotonicznej jest zależność liniowa. W przypadku skrajnym zachodzi, kiedy jedna ze zmiennych jest liniowo zależna od drugiej zmiennej. W praktyce tu także zależność nie musi być pełna. Miarą stopnia zależności liniowej jest np. współczynnik korelacji Pearsona.
  • Jeżeli zmienne losowe są niezależne oraz całkowalne, to ich kowariancja jest równa zeru. Bezpośrednim wnioskiem z tego twierdzenia jest następujący fakt:
  • Jeżeli zmienne losowe X_1, \ldots, X_n są całkowalne oraz parami niezależne, to
D^2(X_1+\ldots+X_n)=D^2X_1+\ldots D^2X_n.

Zmienne losowe o wartościach rzeczywistych

Zmienne losowe X_1, \ldots, X_n nazywamy niezależnymi, kiedy dla każdego ciągu zbiorów borelowskich (na prostej) B_1, \ldots, B_n spełniony jest warunek

P(X_1\in B_1,\ldots, X_n\in B_n)=P(X_1\in B_1)\cdot\ldots\cdot P(X_n\in B_n).

Innymi słowy, zmienne X_1, \ldots, X_n są niezależne wtedy oraz tylko wtedy, kiedy generowane przez nie σ-ciała[1] \sigma(X_1),\ldots, \sigma(X_n) są niezależne.

Używając zmiennych losowych możemy opisywać niezależność zdarzeń. I tak, zdarzenia A_1, \ldots, A_n są niezależne wtedy oraz tylko wtedy, kiedy niezależne są ich indykatory \mathbf{1}_{A_1}, \ldots, \mathbf{1}_{A_n}, rozpatrywane jako zmienne losowe. Wielokrotnie wygodnie jest używać następującej charakteryzacji niezależności zmiennych losowych:

Jeśli X_1, \ldots, X_m są zmiennymi losowymi, to każde dwa z następujących zdań są równoważne:

  1. Zmienne losowe X_1, \ldots, X_m są niezależne.
  2. P_{(X_1, \ldots, X_n)}=P_{X_1}\otimes \ldots \otimes P_{X_n}, tzn. rozkład łączny wektora losowego (X_1, \ldots, X_n) jest produktem rozkładów odpowiednich zmiennych losowych.
  3. P(X_1\leqslant x_1, \ldots, X_n\leqslant x_n)=P(X_1\leqslant x_n)\cdot\ldots\cdot P(X_n\leqslant x_n) dla każdych liczb rzeczywistych x_1, \ldots, x_n, tzn. dystrybuanta wielowymiarowa wektora losowego (X_1, \ldots, X_n) jest iloczynem dystrybuant odpowiednich zmiennych losowych.

Ponadto, jeśli zmienne losowe X_1, \ldots, X_n posiadają rozkłady ciągłe, a g_1, \ldots, g_n są ich gęstościami, to są one niezależne kiedy funkcja

g(x_1, \ldots, x_n)=g_1(x_1)\cdot\ldots\cdot g_n(x_n)

jest gęstością wektora losowego (X_1, \ldots, X_n).

Jeżeli X_1, \ldots, X_n są zmiennymi losowymi o rozkładach dyskretnych, a S_1, \ldots, S_n\subset \mathbb{R} są takimi zbiorami przeliczalnymi, że

P_{X_1}(S_1)=1,\ldots, P_{X_n}(S_n)=1, to

zmienne te są niezależne wtedy oraz tylko wtedy, kiedy dla każdych liczb x_1\in S_1, \ldots, x_n\in S_n zachodzi równość

P(X_1=x_1, \ldots, X_n=x_n)=P(X_1=x_1)\cdot\ldots\cdot P(X_n=x_n).

Jeżeli, natomiast, zmienne losowe X_1, \ldots, X_n są niezależne, a (i_1, \ldots, i_k) jest ściśle rosnącym ciągiem liczb ze zbioru \{1,\ldots, n-1\}, to σ-ciała

\sigma(X_1,\ldots, X_{i_1}), \sigma(X_{i_1+1}, \ldots, X_{i_2}),\ldots, \sigma(X_{i_k+1},\ldots, X_n)

są niezależne.

Niezależność dowolnej rodziny zmiennych losowych

Jeśli \{X_t\}_{t\in T}, gdzie T jest pewnym zbiorem indeksów, jest rodziną zmiennych losowych, to mówimy, że jest ona niezależne kiedy dla każdej liczby naturalnej n oraz dla każdych elementów t_1, \ldots, t_n niezależne są zmienne losowe X_{t_1}, \ldots, X_{t_n}.

Wartość oczekiwana iloczynu niezależnych zmiennych losowych

Korzystając z twierdzenia Fubiniego da się dowieść, że jeśli X_1,\ldots, X_n są niezależnymi zmiennymi losowymi, to wartość oczekiwana modułu ich iloczynu wyraża się wzorem

E|X_1\cdot\ldots\cdot X_n|=(E|X_1|)\cdot\ldots\cdot (E|X_1|).

Jeśli ponadto, zmienne te są całkowalne, to

E(X_1\cdot\ldots\cdot X_n)=EX_1\cdot\ldots\cdot EX_1.

Twierdzenie odwrotne nie jest jednak prawdziwe - niech \Omega=[0,1] oraz niech \mathcal{A} będzie σ-ciałem zbiorów borelowskich na tym zbiorze, a P będzie obcięciem miary Lebesgue'a do tego σ-ciała. Rozważmy następujące zmienne losowe

X(\omega)=\sin(2\pi \omega), Y(\omega)=\cos(2\pi \omega).

Wartość oczekiwana każdej z nich oraz ich iloczynu wynosi 0, natomiast zmienne te nie są niezależne, albowiem w przeciwnym razie byłyby niezależne zmienne

|X|, \sqrt{1-X^2} (jedynka trygonometryczna),

czyli w konsekwencji dla każdego zbioru borelowskiego B byłby spełniony warunek

P(\{\omega\in [0,1]\colon\, \sin(2\pi\omega)\in B\})\in\{0,1\},

co bez wątpienia nie jest prawdą.

Pewne twierdzenia wykorzystujące założenie niezależności zmiennych

  • Funkcja charakterystyczna sumy niezależnych zmiennych losowych jest iloczynem funkcji charakterystycznych tych zmiennych.
  • Funkcja tworząca sumy niezależnych zmiennych losowych (przyjmujących wartości w zbiorze liczb naturalnych z zerem) jest iloczynem funkcji tworzących tych zmiennych losowych.
  • Prawo zero-jedynkowe Kołmogorowa
    • Jeżeli (X_n)_{n\in\mathbb{N}} jest ciągiem niezależnych zmiennych losowych, to
P(\{\omega\in \Omega\colon\,\mbox{ szereg }\sum_{n=1}^\infty X_n(\omega)\mbox{ jest zbiezny}\})\in \{0,1\}.

Popularne błędy

Zależność a rozkłady zmiennych

Znając rozkłady brzegowe każdej ze zmiennych z osobna nic nie da się powiedzieć o ewentualnej zależności albo braku zależności pomiędzy nimi. Dla przykładu pomiędzy dwiema zmiennymi X oraz Y przyjmującymi każdą z wartości {1,2,3,4,5,6} z tym samym prawdopodobieństwem (rozkład jednostajny dyskretny), może istnieć korelacja ujemna, dodatnia, albo bywają niezależne:

  1. Jeśli zmienna X jest wynikiem rzutu kostką, a Y=7-X, to zmienne X oraz Y są zależne, współczynnik korelacji wynosi -1
  2. Jeśli zmienna X jest wynikiem rzutu kostką, a Y=X, to zmienne X oraz Y są zależne, współczynnik korelacji wynosi +1
  3. Jeśli każda z nich modeluje wyniki rzutu inną kostką, to zmienne X oraz Y są niezależne, współczynnik korelacji wynosi 0.
  4. Jeśli zmienna X jest wynikiem rzutu kostką, a Y jest w części przypadków równe X, a w pozostałych przypadkach równe wynikowi rzutu drugą kostką, to zmienne X oraz Y są zależne, współczynnik korelacji będzie gdzieś pomiędzy 0 a +1.

W każdym z tych przypadków rozkład brzegowy każdej ze zmiennych X, Y jest identyczny, jednak różni się ich rozkład łączny. W trzech pierwszych przypadkach różni się np. zbiór możliwych wartości pary (X,Y):

  1. W pierwszym przypadku jest to \{(1,6),(2,5),(3,4),(4,3),(5,2),(6,1)\}\;
  2. W drugim przypadku \{(1,1),(2,2),(3,3),(4,4),(5,5),(6,6)\}\;
  3. W trzecim przypadku \{(1,1),(1,2),\dots,(1,6),(2,1),(2,2),\dots,(2,6),(3,1),\dots,(6,6)\}\;. Zmienne są niezależne, bo informacja o wartości jednej z nich nic nie mówi o wartości drugiej.
  4. W czwartym przypadku zbiór możliwych wartości jest taki sam jak w trzecim, jednak różnią się prawdopodobieństwa, z jakimi są one przyjmowane. Znajomość zmiennej X dopuszcza dokładniej przewidywać znajomość zmiennej Y (formalnie: rozkład warunkowy Y|X=x zmienia się w zależności od x), więc są zależne.

Zależność jest więc cechą rozkładu łącznego porównywanych zmiennych.

Zależność a współczynnik korelacji

Wielokrotnie błędnie zakłada się, że zależność statystyczna jest równoważna niezerowemu współczynnikowi korelacji. Nie jest to prawda. Dla przykładu zmienne X oraz Y bywają związane zależnością:

Y=X^2\and -1\leqslant X\leqslant 1

Jest to przykład ścisłej zależności. Jednak zarówno klasyczna korelacja Pearsona, jak oraz rangowa dadzą wartość zero (dla próbki - bliską zeru), albowiem zależność ta nie jest monotoniczna, ani tym bardziej liniowa.

Zależność a związek przyczynowo-skutkowy

Częstym błędem jest przyjmowanie, że zmienne silnie nawet skorelowane są związane jakimś związkiem przyczynowo-skutkowym, tym mocniejszym, im korelacja większa. Uświadamia to taki oto przykład: dźwięk dworcowego zegara wybijającego godzinę pierwszą jest niezwykle silnie skorelowany z odjazdem pociągu o 1:00 ze stacji, nie jest on jednak żadną przyczyną ruchu - oraz odwrotnie, odjazd pociągu nie jest przyczyną dźwięku. W tym wypadku mamy zaledwie do czynienia ze współwystępowaniem zjawisk, a nie związkiem przyczynowo-skutkowym. Z uwagi na z tym jeśli czynnik A (np. wykształcenie) oraz czynnik B (np. zarobki) korelują ze sobą, to winno się tworzyć przynajmniej parę hipotez na temat ewentualnego związku przyczynowego pomiędzy nimi:

  1. Czynnik A wpływa na czynnik B. Tu: wykryto związek pomiędzy zarobkami a wykształceniem, bo wyższe wykształcenie powoduje że dana osoba więcej zarabia.
  2. Czynnik B wpływa na czynnik A. Tu: ludzie zamożniejsi posiadają lepszy dostęp do wykształcenia oraz dlatego istnieje związek pomiędzy zarobkami a wykształceniem.
  3. Równocześnie A wpływa na B oraz B na A Tu: z jednej strony ludzie zamożniejsi posiadają lepszy dostęp do wykształcenia ale z drugiej ludzie lepiej wykształceni posiadają lepsze zarobki.
  4. Istnieje czynnik C niezidentyfikowany w badaniu, który koreluje z A oraz z B. Tu: miejsce zamieszkania (lub ambicje) bywają czynnikiem, który z jednej strony powoduje, że ktoś więcej zarabia, a z drugiej, że ma wyższe wykształcenie.

Korelacja nie dowodzi więc żadnego związku przyczynowo - skutkowego.

Wśród statystyków jako przykład podawana jest anegdota o tym, że wykryto istotną statystycznie dodatnią zależność pomiędzy liczbą bocianów przypadających na km2 w danym skupisku ludzkim, a przyrostem naturalnym na tym obszarze. Naturalnie nie dowodzi to, że bociany przynoszą dzieci. Na wsi jest średnio większy przyrost naturalny oraz czasem żyją tam bociany. W mieście przyrost jest mniejszy oraz nie ma bocianów. Istnienie trzeciej zmiennej – miasto / wieś, skorelowanej zarówno z liczbą bocianów jak oraz z przyrostem naturalnym powoduje powstanie zależności także tamtych dwóch zmiennych.

W innej wersji powiada się o korelacji liczby bocianów z liczbą dzieci na tym samym terenie wiejskim w skali wielu lat. Okazuje się, że liczba bocianów jest skorelowana dodatnio z ciepłym latem, a przy dobrej pogodzie wzrastać ma też liczba par kochających się na łonie natury.

Prawdopodobnie nie są to wyniki poważnych badań, lecz tylko legenda, niemniej jest ona dobrą ilustracją, jak może powstawać zależność, nie będąca związkiem przyczynowo-skutkowym[2].

Podobnie, da się by się dopatrzyć silnej dodatniej korelacji pomiędzy wzrostem liczby ludności w Indiach a liczbą samochodów w Polsce, choć jest to zaledwie czysto statystyczna korelacja, współwystępowanie zjawisk, a nie jakikolwiek związek przyczynowo-skutkowy.

Innym przykładem jest korelacja liczby zgonów osób bezdomnych w Indiach a poziomem spożycia lodów w Stanach Zjednoczonych. Tu trzecią zmienną jest średnia temperatura lata na półkuli północnej. Jej zwiększenie powoduje więcej zgonów spowodowanych upałem oraz bez wątpienia zwiększenie spożycia lodów.

Obserwacje odstające

Innym częstym błędem jest niesprawdzanie, czy w próbie nie są obserwacje odstające, które potrafią całkowicie przekłamać wartość oraz znak współczynnika korelacji Pearsona.

Przypisy

  1. Przypomnijmy, że jeśli \scriptstyle{f\colon \Omega \to \mathbb{R}}, to σ-ciałem generowanym przez funkcję \scriptstyle{f} nazywamy najmniejsze w sensie inkluzji σ-ciało podzbiorów zbioru \scriptstyle{\Omega} zawierające rodzinę \scriptstyle{\{f^{-1}(B)\colon\, B\in \mathcal{B}(\mathbb{R})\}}.
  2. [1], [2]

Bibliografia

  • Jacek Jakubowski, Rafał Sztencel: Wstęp do teorii prawdopodobieństwa. Warszawa: Script, 2004. ISBN 83-89716-02-X. 
  • Jacek Koronacki, Jan Mielniczuk: Statystyka dla studentów kierunków technicznych oraz przyrodniczych. Warszawa: WNT, 2006. ISBN 83-204-3242-1. 
  • E. L. Lehmann. Some concepts of dependence. „Ann. Math. Statist.”. 37 1137-53, 1966. 
  • T. Kowalczyk, E. Pleszczyńska. Monotonic Dependence Functions of Bivariate Distributions. „The Annals of Statistics”. Vol. 5, No.6, 1221-1227, 1977.  nullwww.jstor.org/pss/2958654

Sprawdź też

vseo.pl