Z wielu pytań na jakie próbuje odpowiedzieć statystyka jest pytanie o zależność między jedną zmienną a drugą. Narzędziem do tego służącym jest współczynnik korelacji liniowej Pearsona.
Jego postać przedstawia poniższy wzór:
, gdzie
i
oznaczają średnie arytmetyczne zmiennych
i
, natomiast
i
odchylenia standardowe tych zmiennych.
W praktyce obliczenia wykonywane są przez komputer, a zadaniem statystyka jest prawidłowa interpretacja wyniku. Zauważmy przy tym, że współczynnik korelacji liniowej Pearsona jest miarą unormowaną w przedziale , tzn. jeśli wynosi on
oznacza to korelację ujemną (wraz ze wzrostem jednej zmiennej druga maleje i odwrotnie), jeśli zaś wynosi on
zmienne są ze sobą skorelowane dodatnio (wzrostowi jednej zmiennej towarzyszy wzrost drugiej, itd.). Korelacja równa
oznacza brak zależności między zmiennymi.
Przykład:
Zastanówmy się w jaki sposób ocena z egzaminu powiązana jest z czasem spędzonym na naukę?
Przykładowe dane dotyczą grupy uczniów. Zmienną jest czas poświęcony na naukę (w godzinach), natomiast zmienną
- ocena z egzaminu.
Można policzyć, że korelacja dla tych danych (mierzona współczynnikiem korelacji liniowej Pearsona) jest równa , a zatem jest to korelacja dodatnia o umiarkowanej sile. Wniosek? Dla tego zestawu danych czas spędzony na nauce tylko w pewnym stopniu przyczyniał się do zwiększenia szans na zdobycie lepszej oceny.