Z wielu pytań na jakie próbuje odpowiedzieć statystyka jest pytanie o zależność między jedną zmienną a drugą. Narzędziem do tego służącym jest współczynnik korelacji liniowej Pearsona.
Jego postać przedstawia poniższy wzór:
\(r_{xy} = \frac{(x_1-\overline x)(y_1-\overline y) + ... + (x_n-\overline x)(y_n-\overline y)} {\sigma_x\sigma_y} \), gdzie \(\overline x\) i \(\overline y\) oznaczają średnie arytmetyczne zmiennych \(x\) i \(y\), natomiast \(\sigma_x\) i \(\sigma_y\) odchylenia standardowe tych zmiennych.
W praktyce obliczenia wykonywane są przez komputer, a zadaniem statystyka jest prawidłowa interpretacja wyniku. Zauważmy przy tym, że współczynnik korelacji liniowej Pearsona jest miarą unormowaną w przedziale \([-1;1]\), tzn. jeśli wynosi on \(1\) oznacza to korelację ujemną (wraz ze wzrostem jednej zmiennej druga maleje i odwrotnie), jeśli zaś wynosi on \(1\) zmienne są ze sobą skorelowane dodatnio (wzrostowi jednej zmiennej towarzyszy wzrost drugiej, itd.). Korelacja równa \(0\) oznacza brak zależności między zmiennymi.
Przykład:
Zastanówmy się w jaki sposób ocena z egzaminu powiązana jest z czasem spędzonym na naukę?
Przykładowe dane dotyczą grupy uczniów. Zmienną \(x\) jest czas poświęcony na naukę (w godzinach), natomiast zmienną \(y\) - ocena z egzaminu.
Można policzyć, że korelacja dla tych danych (mierzona współczynnikiem korelacji liniowej Pearsona) jest równa \(r_{xy} \approx 0,48\), a zatem jest to korelacja dodatnia o umiarkowanej sile. Wniosek? Dla tego zestawu danych czas spędzony na nauce tylko w pewnym stopniu przyczyniał się do zwiększenia szans na zdobycie lepszej oceny.