Czym jest korelacja liniowa i współczynnik r
Intuicyjne znaczenie korelacji liniowej
Korelacja liniowa opisuje, jak silnie i w jakim kierunku dwie zmienne są ze sobą powiązane w sposób zbliżony do linii prostej. Jeśli wraz ze wzrostem jednej zmiennej druga przeważnie rośnie – mówimy o dodatniej korelacji liniowej. Jeśli przy wzroście jednej druga zwykle maleje – korelacja jest ujemna.
Kluczowy jest tu człon liniowa. Wiele powiązań w danych ma charakter nieliniowy (np. krzywoliniowy, wykładniczy, U-kształtny). Współczynnik korelacji liniowej Pearsona, oznaczany jako r, mierzy wyłącznie związek w przybliżeniu prostoliniowy. Jeśli relacja jest silnie zakrzywiona, r może być bliski zeru, mimo że zmienne są wyraźnie powiązane.
Definicja współczynnika korelacji r Pearsona
Współczynnik korelacji liniowej Pearsona r to znormalizowana miara współzmienności dwóch zmiennych. Przyjmuje wartości w przedziale od -1 do 1:
- r = 1 – idealna dodatnia korelacja liniowa (wszystkie punkty dokładnie na rosnącej linii prostej),
- r = -1 – idealna ujemna korelacja liniowa (wszystkie punkty dokładnie na malejącej linii prostej),
- r = 0 – brak liniowej zależności (lub bardzo słaba), ale możliwa jest zależność nieliniowa.
Wartości pośrednie opisują siłę i kierunek związku. Im bliżej -1 lub 1, tym silniejsza korelacja; im bliżej 0, tym słabsza.
Co dokładnie mierzy r – spojrzenie statystyczne
Formalnie współczynnik r mierzy stopień, w jakim odchylenia obu zmiennych od ich średnich są zgodne co do znaku i wielkości. Jeśli punkty leżą blisko rosnącej linii, odchylenia od średnich mają zwykle ten sam znak, co daje wysoką dodatnią korelację. Jeśli gdy jedna zmienna odbiega w górę od średniej, druga w dół – korelacja jest ujemna.
Współczynnik r jest w istocie standaryzowaną kowariancją: dzielimy kowariancję przez iloczyn odchyleń standardowych obu zmiennych. Dzięki temu r jest pozbawiony jednostek i zawsze mieści się w przedziale [-1, 1], niezależnie od skali pomiaru (złote, centymetry, minuty itd.).
Podstawy matematyczne: wzór na współczynnik korelacji r
Pełny wzór na korelację liniową Pearsona
Klasyczny wzór na współczynnik korelacji liniowej Pearsona dla próby o liczności n można zapisać tak:
r =
(
frac{sum_{i=1}^n (x_i – bar{x})(y_i – bar{y})}
{sqrt{sum_{i=1}^n (x_i – bar{x})^2} cdot sqrt{sum_{i=1}^n (y_i – bar{y})^2}}
)
Gdzie:
- xi, yi – kolejne obserwacje dwóch zmiennych,
- ȳ i x̄ – średnie arytmetyczne odpowiednio zmiennej X i Y,
- licznik to suma iloczynów odchyleń od średnich,
- mianownik to iloczyn pierwiastków z sum kwadratów odchyleń – w praktyce iloczyn „rozrzutów” obu zmiennych.
Interpretacja poszczególnych elementów wzoru
Wzór można odczytywać krok po kroku:
- Odchylenia od średniej: dla każdej obserwacji liczmy (xi – x̄) i (yi – ȳ). To mówi, o ile dana wartość różni się od typowego (średniego) poziomu.
- Iloczyny odchyleń: mnożymy odchylenia: (xi – x̄)(yi – ȳ). Jeśli obie zmienne są powyżej średniej (dodatnie odchylenia) lub poniżej (ujemne odchylenia), iloczyn jest dodatni. Jeśli jedna jest powyżej, druga poniżej – iloczyn jest ujemny.
- Suma iloczynów: sumując iloczyny, dostajemy wielkość zwaną kowariancją (przed normalizacją). Dodatnia oznacza, że odchylenia zwykle mają ten sam znak; ujemna – przeciwny.
- Standaryzacja: dzielimy sumę iloczynów przez „rozrzuty” X i Y (pierwiastki z sum kwadratów odchyleń). Dzięki temu r nie zależy od jednostek i skali.
Taka budowa sprawia, że korelacja liniowa jest odporna na zmiany jednostek (np. metry na centymetry) czy na dodanie stałej do wszystkich wartości (np. przesunięcie skali temperatury). Różny będzie poziom średniej i wariancji, ale r pozostanie ten sam.
Pochodzenie r z kowariancji
Często wygodniej jest najpierw policzyć kowariancję, a dopiero potem korelację. Kowariancja próby:
cov(X, Y) =
(
frac{1}{n-1} sum_{i=1}^n (x_i – x̄)(y_i – ȳ)
)
Odchylenia standardowe:
sX =
(
sqrt{frac{1}{n-1} sum_{i=1}^n (x_i – x̄)^2}
)
sY =
(
sqrt{frac{1}{n-1} sum_{i=1}^n (y_i – ȳ)^2}
)
Wtedy współczynnik korelacji liniowej r można zapisać prosto:
r = cov(X, Y) / (sX · sY)
Ten zapis jest bardzo użyteczny przy obliczeniach ręcznych i w arkuszach kalkulacyjnych, bo pozwala rozbić proces na osobne kroki: rozkładanie zmiennych, liczenie średnich, wariancji, kowariancji, a na koniec – normalizacja do r.
Przygotowanie danych do analizy korelacji liniowej
Typ danych odpowiedni do liczenia r
Współczynnik korelacji liniowej Pearsona ma sens przede wszystkim dla danych ilościowych:
- zmienne mierzalne w skali przedziałowej lub ilorazowej – np. wzrost, zarobki, czas reakcji, liczba klientów, temperatura, wynik testu w punktach,
- dane porządkowe tylko wtedy, gdy można je traktować jak przybliżoną skalę liczbową i rozkład jest w miarę „gładki” (np. skala likerta 1–10 przy dużej próbie).
Nie stosuje się r do:
- czysto nominalnych danych (np. kolor oczu, marka samochodu, miasto) – tam wykorzystuje się inne miary, np. współczynnik V Craméra,
- zmiennych o bardzo małej liczbie rang porządkowych (np. zgadza się / nie zgadza się) – wówczas raczej współczynnik rho Spearmana lub statystyki dla tabel 2×2.
Czyszczenie i standaryzacja danych
Zanim obliczysz korelację liniową, dobrze jest przejść przez kilka prostych kroków:
- Usunięcie lub oznaczenie braków danych – w wielu narzędziach pary, gdzie brakuje X lub Y, są po prostu pomijane. W małej próbie każdy brak może mocno zniekształcać wyniki.
- Sprawdzenie zakresów i jednostek – czy dane są w tych samych jednostkach, czy nie ma pomyłek rzędu wielkości (np. 1200 zamiast 120)? Ekstremalne błędy wprowadzają sztuczne korelacje.
- Weryfikacja ekstremów (outliers) – pojedyncze skrajne punkty mogą silnie zaburzyć korelację liniową. Trzeba ustalić, czy są to realne obserwacje, czy błąd pomiaru/wnioskowania.
- Ewentualne przekształcenia – gdy rozkład jest bardzo skośny (np. przychody firm), czasem stosuje się logarytmowanie lub inne transformacje, zanim policzy się r.
Spostrzeżenia wstępne: wykres rozrzutu
Pierwszym krokiem przed liczeniem korelacji powinna być wizualizacja, najczęściej prosty wykres rozrzutu (scatter plot): punkty z X na osi poziomej i Y na osi pionowej. Na takim wykresie widać:
- czy związek ma charakter liniowy, krzywoliniowy czy w ogóle brak struktury,
- czy są grupy, klastry, które mogą powodować artefakty korelacji (np. złożenie dwóch populacji),
- czy występują wyraźne obserwacje odstające,
- czy zmienne nie są „poszatkowane” (np. jedna przyjmuje tylko kilka wartości), co może ograniczać interpretację r.
Dobrą praktyką jest, by nigdy nie interpretować współczynnika korelacji bez uprzedniego obejrzenia wykresu rozrzutu. To na wykresie widać błędy typowe dla ślepego ufania jednej liczbie.
Jak obliczyć współczynnik korelacji r krok po kroku
Ręczne obliczenie r – metoda tabelaryczna
Dla małych zestawów danych korelację liniową można policzyć ręcznie w tabeli. Schemat krok po kroku:
- Zapisz pary danych (X, Y) w dwóch kolumnach.
- Policz średnią dla X (x̄) i Y (ȳ).
- Dla każdej obserwacji policz: (xi – x̄) i (yi – ȳ).
- Dodaj kolumnę z iloczynem odchyleń: (xi – x̄)(yi – ȳ).
- Dodaj kolumny z kwadratami odchyleń: (xi – x̄)² i (yi – ȳ)².
- Policz sumę iloczynów odchyleń oraz sumy kwadratów odchyleń dla X i Y.
- Podstaw do wzoru na r.
Przykładowa struktura tabeli do obliczania r
Przydatną formę prezentuje prosta tabela:
| i | X | Y | (X – x̄) | (Y – ȳ) | (X – x̄)(Y – ȳ) | (X – x̄)² | (Y – ȳ)² |
|---|---|---|---|---|---|---|---|
| 1 | x₁ | y₁ | … | … | … | … | … |
| 2 | x₂ | y₂ | … | … | … | … | … |
| … | … | … | … | … | … | … | … |
| Σ | Σ(X – x̄)(Y – ȳ) | Σ(X – x̄)² | Σ(Y – ȳ)² |
Na końcu wystarczy policzyć:
r =
(
frac{sum (X – x̄)(Y – ȳ)}
{sqrt{sum (X – x̄)^2} cdot sqrt{sum (Y – ȳ)^2}}
)
Obliczanie r w Excelu i innych arkuszach
W praktyce biznesowej i badawczej korelację liniową liczy się zwykle w arkuszu kalkulacyjnym lub pakietach statystycznych.
W Excelu istnieją gotowe funkcje (nazwy mogą się delikatnie różnić między wersjami):
- =KORELACJA(tablica1; tablica2) – bezpośrednia funkcja zwracająca r Pearsona,
- =PEARSON(tablica1; tablica2) – alternatywna funkcja (w nowszych wersjach zachowawcza, zalecana jest KORELACJA),
- ANALIZA DANYCH → Korelacja – w dodatku „Analysis ToolPak” (Excel); tworzy macierz korelacji dla wielu kolumn jednocześnie,
- funkcje statystyczne do rozbijania wzoru:
=KOWARIANCJA.P(),=KOWARIANCJA.S(),=ODCH.STANDARD.P(),=ODCH.STANDARD.S()i policzenie r jakocov/(sX*sY), - funkcje tablicowe / macierzowe w LibreOffice / Google Sheets – działają analogicznie, choć nazwy komend mogą się różnić (np.
=CORREL(range1; range2)w angielskiej wersji).
Inne funkcje i szybkie metody w arkuszach
Poza bezpośrednimi funkcjami korelacji, w arkuszach kalkulacyjnych można wykorzystać także:
Przy większej liczbie zmiennych wygodniej jest od razu tworzyć macierz korelacji niż liczyć r dla każdej pary osobno.
Korelacja liniowa w Pythonie i R
W analizach bardziej zaawansowanych dane częściej przetwarza się w językach Python lub R.
W Pythonie (biblioteka pandas):
import pandas as pd
# df - tabela danych z kolumnami 'X' i 'Y'
r_xy = df['X'].corr(df['Y']) # korelacja X z Y
macierz_r = df.corr(numeric_only=True) # macierz korelacji dla wszystkich kolumn liczbowych
W R:
# x i y - wektory danych
r_xy <- cor(x, y, method = "pearson") # domyślnie: Pearson
macierz_r <- cor(dane) # macierz korelacji dla ramki danych
Parametr method pozwala szybko przełączyć się na korelację Spearmana lub Kendalla, gdy liniowość jest wątpliwa.

Interpretacja wartości współczynnika r w praktyce
Siła i kierunek zależności
Zakres r wynosi od -1 do +1, co bezpośrednio przekłada się na interpretację:
- r ≈ +1 – bardzo silna zależność dodatnia: większe X zwykle towarzyszą większym Y w niemal idealnej linii rosnącej,
- r ≈ -1 – bardzo silna zależność ujemna: rosnące X wiąże się z malejącym Y w niemal idealnej linii malejącej,
- r ≈ 0 – brak istotnej zależności liniowej (choć możliwy jest inny typ związku, np. krzywoliniowy).
Uproszczona skala odczytu siły związku (często stosowana w psychologii i naukach społecznych) wygląda następująco:
- |r| < 0,1 – związek pomijalny w praktyce,
- 0,1 ≤ |r| < 0,3 – związek słaby,
- 0,3 ≤ |r| < 0,5 – związek umiarkowany,
- 0,5 ≤ |r| < 0,7 – związek dość silny,
- 0,7 ≤ |r| < 0,9 – związek silny,
- |r| ≥ 0,9 – związek bardzo silny / bliski deterministycznemu.
Progi te są umowne i zależą od dziedziny. W badaniach medycznych r = 0,2–0,3 może mieć duże znaczenie kliniczne, natomiast w inżynierii taki sam poziom związku często uznaje się za mało użyteczny.
r a odsetek wyjaśnionej zmienności (r²)
Kwadrat korelacji liniowej, czyli r², to odsetek wariancji jednej zmiennej, który można wyjaśnić liniową zależnością z drugą zmienną. Przykład:
- r = 0,6 → r² = 0,36: ok. 36% zróżnicowania Y wiąże się liniowo z X, pozostałe 64% to inne czynniki i „szum”,
- r = 0,2 → r² = 0,04: tylko ok. 4% wariancji Y jest wyjaśniane liniowo przez X.
W regresji liniowej r² jest bezpośrednio powiązane z współczynnikiem determinacji R². Dla prostego modelu z jedną zmienną objaśniającą obowiązuje relacja: R² = r² (z dokładnością do zaokrągleń).
Ocena istotności statystycznej korelacji
Sama liczba r nie mówi, czy związek jest statystycznie istotny. To, czy wynik mógł się pojawić „przypadkiem”, ocenia się testem istotności. Dla korelacji Pearsona stosuje się zazwyczaj:
- hipotezę zerową H₀: r w populacji = 0 (brak liniowej zależności),
- hipotezę alternatywną H₁: r w populacji ≠ 0 (lub > 0, < 0 przy testach jednostronnych).
Statystykę testową można wyrazić w postaci:
t =
(
frac{r sqrt{n – 2}}{sqrt{1 – r^2}}
)
która ma rozkład t-Studenta z (n – 2) stopniami swobody. Na tej podstawie wyznacza się p-value.
W praktyce w ogóle nie liczy się tego ręcznie – wszystkie popularne pakiety (R, Python, SPSS, Statistica) podają od razu r razem z p-value i przedziałem ufności.
Przedziały ufności dla r
Pojedynczy wynik r jest estymacją na podstawie skończonej próby. Przy małej liczebności próbka może „przeceniać” lub „niedoszacowywać” prawdziwy związek w populacji. Dlatego przydatny jest przedział ufności (np. 95%), który pokazuje realistyczny zakres wartości r w populacji zgodny z danymi.
W większości programów statystycznych wyznaczenie przedziału nie wymaga dodatkowej pracy – opcja „confidence interval” lub odpowiedni argument funkcji. Szeroki przedział (np. od 0,05 do 0,65) sygnalizuje dużą niepewność szacunku, zwykle przy małym n lub dużej liczbie obserwacji odstających.
Założenia stosowania korelacji Pearsona
Liniowość zależności
Współczynnik r mierzy siłę liniowego związku. Jeśli relacja jest wyraźnie nieliniowa – na przykład ma kształt litery U, odwróconej U lub jest „progowa” – r może być bliski 0, mimo silnego związku w innej postaci.
Dlatego tak istotny jest wykres rozrzutu. Przykład: zależność między poziomem stresu a efektywnością pracy bywa krzywoliniowa – przy bardzo niskim i bardzo wysokim stresie efektywność jest słaba, a najlepsza przy umiarkowanym poziomie. Korelacja liniowa może wyjść wtedy bliska zera.
Rozkład zmiennych a odporność na odstające wartości
Teoretycznie dla testów związanych z r zakłada się zbliżony do normalnego rozkład zmiennych i brak silnych obserwacji odstających. W praktyce:
- umiarkowane odchylenia od normalności zwykle nie czynią dużej szkody,
- pojedyncze ekstremalne punkty mogą radykalnie wypchnąć r w górę lub w dół.
Gdy rozkłady są silnie skośne, a odstających wartości jest dużo, stosuje się często:
- przekształcenia danych (np. logarytm),
- miary nieparametryczne – korelację Spearmana (rho) lub Kendalla (tau), które bazują na rangach zamiast surowych wartościach.
Niezależność obserwacji
R zakłada, że poszczególne pary (xi, yi) są od siebie niezależne. Gdy w danych są powtórzone pomiary tych samych osób, rodzin czy jednostek organizacyjnych bez właściwego modelowania (np. modele mieszane), korelacja prosta może dawać zawyżoną ocenę związku.
Typowe pułapki interpretacji korelacji
Korelacja nie oznacza związku przyczynowego
To najczęściej nadużywane stwierdzenie związane z r. Nawet bardzo wysoka korelacja nie oznacza automatycznie, że X „powoduje” Y. Możliwe są co najmniej trzy scenariusze:
- X wpływa na Y (przyczynowo),
- Y wpływa na X (odwrotny kierunek),
- na obie zmienne wpływa zmienna trzecia – tzw. czynnik zakłócający (confounder).
Przykład z praktyki: silna korelacja między liczbą sprzedanych lodów a liczbą utonięć nie oznacza, że lody powodują utonięcia. Obie zmienne rosną latem, gdy jest ciepło – to temperatura i sezon są wspólnym czynnikiem trzecim.
Korelacja pozorna i czynnik trzeci
Korelacja pozorna pojawia się, gdy dwie zmienne są statystycznie powiązane, ale związek ten znika lub znacznie słabnie po uwzględnieniu innej zmiennej. W analizach używa się wtedy:
- korelacji częściowych – mierzą związek X i Y przy „kontroli” wpływu jednej lub kilku innych zmiennych Z,
- analizy regresji – która pozwala ocenić wpływ wielu predyktorów równocześnie.
Jeżeli po kontroli najważniejszych zmiennych r spada z 0,6 do 0,1, pierwotna korelacja między X i Y miała głównie charakter pozorny.
Wpływ wielkości próby na istotność r
Ten sam poziom korelacji może być w niewielkiej próbie statystycznie nieistotny, a w ogromnej – wysoce istotny. Przykład:
- r = 0,15 przy n = 40 – p może być > 0,05 (statystycznie nieistotne),
- r = 0,15 przy n = 10 000 – p będzie bardzo małe (istotne), choć związek jest słaby.
W badaniach z dużą próbą p-value przestaje być dobrym wskaźnikiem praktycznego znaczenia. W takich sytuacjach ważniejsza jest:
- wielkość efektu (|r|, r²),
- znaczenie biznesowe / kliniczne / organizacyjne związku.
Wrażliwość r na obserwacje odstające
Jedna nietypowa para (xi, yi) może silnie zmienić korelację, szczególnie przy małym n. Dlatego po wstępnym policzeniu r dobrze jest:
- obejrzeć wykres rozrzutu i zidentyfikować punkty skrajne,
- sprawdzić ich źródło (błąd pomiaru vs rzeczywista wartość),
- porównać r liczone na pełnych danych i po wyłączeniu oczywistych błędów.
Jeśli pojedyncza obserwacja zmienia znak korelacji z dodatniej na ujemną, dane wymagają dokładnego przeglądu, a nie automatycznego raportowania r.
Korelacja liniowa a regresja liniowa
Powiązanie r z prostą regresji
Korelacja liniowa i prosta regresji opisują ten sam wzorzec zależności, ale w różny sposób:
- r mówi, jak silny i w którą stronę jest związek liniowy, ale nie daje równania przewidywania,
- regresja liniowa dostarcza równania w rodzaju: Ŷ = a + bX, które pozwala szacować przeciętną wartość Y dla danego X.
W prostym modelu jednowymiarowym współczynnik kierunkowy b (nachylenie) ma ten sam znak co r, a jego wartość można zapisać jako:
b =
(
r cdot frac{s_Y}{s_X}
)
Regresja umożliwia więc przełożenie informacji zawartej w r na konkretne liczby – o ile rośnie przewidywane Y, gdy X wzrasta o jednostkę.
Kiedy wystarczy korelacja, a kiedy potrzebna jest regresja
Korelacja jest wystarczająca, gdy celem jest jedynie:
- ocena, czy między dwiema zmiennymi występuje powiązanie liniowe,
- porównanie siły różnych powiązań (np. wyniki testów a różne formy treningu).
Regresja jest potrzebna, gdy:
- chcemy przewidywać wartości Y na podstawie X,
- zależy nam na kontroli innych zmiennych (wielowymiarowa regresja),
- interesuje nas ocena wpływu wielu predyktorów naraz, nie tylko jednej pary.

Korelacja liniowa w danych wielowymiarowych
Macierz korelacji
Gdy analizujemy wiele zmiennych jednocześnie, wygodnym narzędziem jest macierz korelacji. To tabela, w której w wierszach i kolumnach występują te same zmienne, a na przecięciu par umieszcza się r.
Taka macierz:
Jak czytać i prezentować macierz korelacji
Macierz korelacji jest symetryczna – r(X, Y) = r(Y, X) – dlatego w praktyce analizuje się zwykle tylko jej górny lub dolny trójkąt. Na przekątnej znajdują się jedynki (korelacja zmiennej z samą sobą).
Przy większej liczbie zmiennych surowa tabela szybko staje się nieczytelna. W raportach analitycznych stosuje się wtedy:
- formatowanie warunkowe – kolor tła lub intensywność barwy odzwierciedla wielkość |r|,
- heatmapy z podpisanymi wartościami r, często połączone z klastrowaniem zmiennych,
- filtry – prezentowanie tylko korelacji powyżej zadanego progu, np. |r| ≥ 0,3.
W badaniach naukowych macierz korelacji bywa dołączana jako tabela w aneksie, a w tekście omawia się jedynie kluczowe pary zmiennych i ich interpretację.
Wielokolinearność i korelacje między predyktorami
Gdy korelacja jest liczona między wieloma kandydatami na predyktory w modelu regresji, pojawia się problem wielokolinearności. Bardzo wysokie korelacje między predyktorami (np. r > 0,8) powodują:
- niestabilność oszacowań współczynników regresji (zmieniają się przy drobnych zmianach danych),
- duże błędy standardowe, co utrudnia testowanie istotności poszczególnych predyktorów,
- trudności interpretacyjne – nie wiadomo, który predyktor odpowiada za efekt.
Przykład z analityki marketingowej: wydatki na reklamę w TV i wydatki na kampanię online mogą być ze sobą mocno skorelowane, jeśli firma ma stały „łączny budżet mediowy” i oba kanały rosną lub maleją razem. W modelu regresji prognozującym sprzedaż same współczynniki przy tych zmiennych mogą być trudne do zinterpretowania, mimo że suma wydatków ma czytelny związek z wynikiem.
Do oceny wielokolinearności obok macierzy korelacji stosuje się także:
- VIF (Variance Inflation Factor),
- analizę głównych składowych (PCA) jako sposób redukcji wymiaru.
Korelacje częściowe i semiczęściowe
Jeżeli interesuje związek dwóch zmiennych po „oczyszczeniu” z wpływu innych, używa się korelacji częściowych. Współczynnik taki mierzy korelację reszt z regresji:
- najpierw regresuje się X na zbiór zmiennych kontrolnych Z i zapisuje reszty,
- to samo robi się dla Y względem Z,
- następnie liczy się r między tymi dwoma wektorami reszt.
Tak uzyskany wynik pokazuje, jaka jest siła związku X–Y przy stałym poziomie Z. Jeżeli po uwzględnieniu kluczowych zmiennych kontrolnych korelacja częściowa jest zbliżona do zera, pierwotny związek miał głównie charakter pozorny.
Z korelacją częściową spokrewniona jest korelacja semiczęściowa (częściowa w sensie „semi”), w której kontroluje się wpływ Z tylko po jednej stronie (dla X lub dla Y). Miara ta bywa używana do oceny unikalnego wkładu predyktora w wyjaśnianie zmiennej zależnej.
Praktyczne obliczanie korelacji liniowej
Korelacja Pearsona w arkuszu kalkulacyjnym
W najprostszych zastosowaniach (raporty biznesowe, badania ankietowe) korelację można obliczyć w arkuszu kalkulacyjnym:
- Excel / Google Sheets:
=PEARSON(zakres_X; zakres_Y)lub=CORREL(zakres_X; zakres_Y), - LibreOffice Calc:
=KORELACJA(zakres_X; zakres_Y).
Arkusz nie podaje od razu p-value ani przedziału ufności, ale do prostych analiz wystarcza sama wartość r. W przypadku większych projektów statystycznych lepiej korzystać z dedykowanych narzędzi.
Obliczanie korelacji w R i Pythonie
W R korelację Pearsona, Spearmana i Kendalla oblicza się tą samą funkcją:
cor(x, y, method = "pearson") # domyślnie "pearson"
cor(x, y, method = "spearman")
cor(x, y, method = "kendall")
cor.test(x, y, method = "pearson") # r, p-value, CI
Funkcja cor.test() zwraca także test istotności i przedział ufności, co ułatwia raportowanie wyników.
W Pythonie (pandas + SciPy) typowy schemat wygląda następująco:
import pandas as pd
from scipy import stats
r, p = stats.pearsonr(df["X"], df["Y"]) # r i p-value
corr_matrix = df.corr(numeric_only=True, method="pearson")
Metoda df.corr() buduje od razu macierz korelacji dla wszystkich zmiennych liczbowych. Do wizualizacji macierzy często używa się bibliotek typu seaborn (funkcja heatmap).
Przygotowanie danych przed liczeniem korelacji
Zanim zostanie policzone r, potrzebne jest proste „porządki” w danych. W praktyce robi się co najmniej trzy kroki:
- obsługa braków danych – usuwanie par z brakami (lista kompletna) lub imputacja braków, jeśli jest ich dużo,
- sprawdzenie zakresów i jednostek – pojedynczy błąd typu 202 zamiast 20,2 potrafi wypaczyć wynik,
- sprawdzenie typu zmiennych – tekstowe kody odpowiedzi muszą być poprawnie zakodowane liczbowo.
W wielu projektach bardziej czasochłonne bywa przygotowanie sensownych par zmiennych i oczyszczenie danych niż samo obliczenie korelacji.
Dobór rodzaju korelacji do typu danych
Korelacja Pearsona dla zmiennych ilościowych
Współczynnik Pearsona stosuje się przede wszystkim do zmiennych:
- ciągłych (np. wzrost, wynagrodzenie, liczba godzin),
- pomiarowych co najmniej na skali interwałowej, gdzie odległości między wartościami są sensowne.
Jeżeli obie zmienne są ilościowe i rozkłady nie są skrajnie skośne, Pearsona zwykle traktuje się jako pierwszy wybór. Odchylenia od normalności są często mniej groźne niż silne obserwacje odstające.
Korelacja Spearmana i Kendalla dla danych porządkowych
Gdy wyniki są oparte na rangach lub skali porządkowej (np. „zdecydowanie się nie zgadzam” – „zdecydowanie się zgadzam”), częściej używa się korelacji bazujących na rangach:
- rho Spearmana – zwykła korelacja Pearsona liczona na rangach zamiast surowych wartościach,
- tau Kendalla – miara oparta na liczbie par zgodnych i niezgodnych, zwykle bardziej konserwatywna.
Spearman jest wygodny, gdy podejrzewa się związek monotoniczny (rosnący lub malejący, lecz niekoniecznie liniowy). Na przykład: wyższe miejsce w rankingu szkół zwykle łączy się z lepszymi wynikami uczniów, ale zależność może być nieliniowa.
W przypadku ankiet Likerta (np. 5–7 kategorii) w literaturze stosuje się zarówno Pearsona, jak i Spearmana. Wybór zależy od celu analizy, liczby kategorii i założeń badawczych.
Korelacje dla zmiennych dychotomicznych
Jeśli jedna lub obie zmienne są dychotomiczne (0/1), stosuje się specjalne warianty korelacji:
- phi (φ) – dla dwóch zmiennych dwuwartościowych (np. obecność/nieobecność objawu),
- tetrachoriczną – gdy zmienne dychotomiczne są traktowane jako „ucięte” zmienne ciągłe,
- point-biserial – dla jednej zmiennej ciągłej i jednej dychotomicznej.
W praktyce biznesowej zamiast złożonych konstrukcji często liczy się zwykłą korelację Pearsona między 0/1 a zmienną ciągłą; przy rozsądnej liczebności i nieskrajnych proporcjach grup daje to użyteczne przybliżenie.
Przykłady interpretacji korelacji w praktyce
Badania ankietowe i HR
W badaniach satysfakcji pracowników korelację r wykorzystuje się do oceny, które aspekty pracy są najmocniej powiązane z ogólną satysfakcją lub intencją odejścia. Wyniki mogą wyglądać następująco:
- r = 0,62 między oceną relacji z bezpośrednim przełożonym a ogólną satysfakcją,
- r = 0,18 między oceną benefitów a ogólną satysfakcją.
Obie korelacje mogą być istotne statystycznie, jeśli próba jest duża, ale tylko ta pierwsza ma znaczenie praktyczne. W rekomendacjach zarządczych naturalnie większy nacisk kładzie się wtedy na rozwój kompetencji menedżerskich niż na drobne modyfikacje pakietu benefitów.
Analizy sprzedaży i marketingu
W obszarze sprzedaży korelacja pojawia się często przy analizie:
- powiązania między liczbą kontaktów handlowych a liczbą domkniętych transakcji,
- związku budżetu kampanii a liczbą leadów.
Dodatnia korelacja (np. r w okolicach 0,5) sugeruje, że większa aktywność/większy budżet zwykle idzie w parze z lepszym wynikiem, ale nie rozstrzyga, czy efekt wynika wyłącznie z samego zwiększenia nakładów. Zmienne trzecie – jakość leadów, sezonowość, reputacja marki – mogą częściowo tłumaczyć obserwowany związek.
Dane medyczne i psychometryczne
W badaniach klinicznych korelacja służy m.in. do:
- oceny związku dawki leku z poziomem biomarkera,
- powiązania wyniku w skali nasilenia objawów z obiektywnymi wskaźnikami (np. ilość snu mierzona akcelerometrem).
W psychometrii r jest kluczowy przy:
- szacowaniu rzetelności testów (np. korelacja połówkowa, korelacje między pozycjami a wynikiem ogólnym),
- weryfikacji trafności – na ile wynik w danym teście koreluje z innymi miarami tego samego konstruktu.
Dobre praktyki raportowania współczynnika r
Jak poprawnie podawać wyniki korelacji
W raportach i publikacjach naukowych standardem jest podawanie:
- wartości r z dwoma miejscami po przecinku,
- wielkości próby n,
- p-value (z informacją o progu istotności),
- opcjonalnie przedziału ufności dla r.
Przykładowy zapis zgodny z praktyką psychologii lub nauk społecznych:
Między wynikiem w skali wypalenia a liczbą godzin pracy tygodniowo odnotowano umiarkowaną dodatnią korelację, r(198) = .35, p < .001, 95% CI [.22, .46].
W raportach biznesowych wystarczy często prostszy opis, o ile jest jasny, czego dotyczy miara i w jakiej skali:
Korelacja między częstotliwością wizyt w sklepie a miesięcznymi wydatkami wyniosła r = 0,58 (n = 2 300), co wskazuje na silniejszy wydatek u klientów częściej odwiedzających sklep.
Łączenie r z wykresami i narracją
Sucha liczba r rzadko wystarcza odbiorcom. Znacznie czytelniejszy obraz daje:
- wykres rozrzutu z dodaną prostą regresji,
- opis zmiennych i zakresu ich wartości,
- krótka interpretacja praktyczna (co to oznacza dla decyzji / rekomendacji).
Jeśli analizowanych jest wiele par zmiennych, można w tekście omówić tylko kilka najważniejszych korelacji, a pełną macierz umieścić w dodatku lub jako załącznik techniczny.
Najczęściej zadawane pytania (FAQ)
Co to jest korelacja liniowa i współczynnik r?
Korelacja liniowa opisuje, jak silnie i w jakim kierunku dwie zmienne ilościowe są ze sobą powiązane w sposób zbliżony do linii prostej. Jeśli wraz ze wzrostem jednej zmiennej druga zwykle rośnie, mówimy o dodatniej korelacji; jeśli maleje – o ujemnej.
Współczynnik korelacji liniowej Pearsona, oznaczany jako r, jest liczbową miarą tej zależności. Przyjmuje wartości od -1 do 1, gdzie wartości bliskie ±1 oznaczają silny związek liniowy, a wartości bliskie 0 – słaby lub brak związku liniowego.
Jak obliczyć współczynnik korelacji liniowej Pearsona r?
Współczynnik r oblicza się na podstawie odchyleń obu zmiennych od ich średnich. Klasyczny wzór dla próby ma postać:
r = Σ(xi − x̄)(yi − ȳ) / [√Σ(xi − x̄)² · √Σ(yi − ȳ)²]
W praktyce często liczy się najpierw kowariancję oraz odchylenia standardowe X i Y, a następnie stosuje prostszy zapis r = cov(X, Y) / (sX · sY). Przy małych zbiorach danych można to zrobić tabelarycznie, krok po kroku, w arkuszu kalkulacyjnym.
Jak interpretować wartości współczynnika korelacji r?
Wartość r zawsze mieści się w przedziale od -1 do 1:
- r ≈ 1 – bardzo silna dodatnia korelacja liniowa (punkty leżą prawie na rosnącej prostej),
- r ≈ -1 – bardzo silna ujemna korelacja liniowa (punkty leżą prawie na malejącej prostej),
- r ≈ 0 – brak lub bardzo słaba zależność liniowa (ale możliwy związek nieliniowy).
Im bliżej 0, tym słabsza korelacja; im bliżej -1 lub 1, tym związek jest silniejszy. Znak r (plus lub minus) mówi o kierunku zależności, a jego moduł (wartość bezwzględna) – o sile związku.
Jakie dane są odpowiednie do liczenia korelacji liniowej Pearsona?
Współczynnik r ma sens przede wszystkim dla danych ilościowych mierzonych w skali przedziałowej lub ilorazowej, takich jak: wzrost, temperatura, czas, dochód, liczba klientów, wyniki testów. Można go też stosować do niektórych danych porządkowych (np. skale typu Likerta 1–10) przy dużej liczbie kategorii i gładkim rozkładzie.
Nie stosuje się r do zmiennych nominalnych (np. kolor oczu, marka, miasto) ani do zmiennych z bardzo małą liczbą rang (np. tak/nie). W takich przypadkach używa się innych miar, jak V Craméra czy korelacja rang Spearmana.
Czy korelacja r wykrywa również zależności nieliniowe?
Współczynnik korelacji Pearsona mierzy wyłącznie liniową zależność między zmiennymi. Jeśli związek jest silnie zakrzywiony (np. wykładniczy, U-kształtny), r może być bliski zeru, mimo że zmienne są wyraźnie powiązane.
Dlatego przed interpretacją r warto zawsze narysować wykres rozrzutu. Pozwala on zobaczyć, czy zależność ma charakter liniowy, czy raczej nieliniowy, oraz czy w danych występują grupy lub obserwacje odstające zniekształcające wynik.
Jak przygotować dane do analizy korelacji liniowej?
Przed obliczeniem r warto wykonać kilka kroków przygotowawczych:
- sprawdzić i oznaczyć braki danych (pary z brakami zwykle są pomijane w obliczeniach),
- zweryfikować zakresy i jednostki, aby wychwycić oczywiste błędy (np. wartości o złej skali),
- zidentyfikować obserwacje odstające, które mogą silnie zaburzać korelację,
- rozważyć przekształcenia (np. logarytmowanie) przy bardzo skośnych rozkładach.
Dobrą praktyką jest też rozpoczęcie analizy od wykresu rozrzutu, aby ocenić charakter zależności i potencjalne problemy z danymi.
Czym różni się kowariancja od korelacji r?
Kowariancja mierzy współzmienność dwóch zmiennych w jednostkach będących iloczynem ich jednostek (np. cm·kg), przez co jej wartość zależy od skali pomiaru i trudno ją porównywać między różnymi parami zmiennych.
Współczynnik korelacji r to znormalizowana kowariancja – dzieli się kowariancję przez iloczyn odchyleń standardowych obu zmiennych. Dzięki temu r jest pozbawiony jednostek, zawsze mieści się w przedziale [-1, 1] i jest odporny na zmianę jednostek (np. metry na centymetry) czy dodanie stałej do wszystkich wartości.
Esencja tematu
- Korelacja liniowa opisuje siłę i kierunek prostoliniowego związku między dwiema zmiennymi – dodatnia oznacza, że obie rosną razem, ujemna, że jedna rośnie, gdy druga maleje.
- Współczynnik korelacji Pearsona r przyjmuje wartości od -1 do 1: wartości bliskie -1 lub 1 oznaczają silną korelację, a wartości bliskie 0 – słabą lub brak liniowej zależności.
- r mierzy zgodność odchyleń obu zmiennych od ich średnich – jest dodatni, gdy odchylenia mają zwykle ten sam znak, ujemny, gdy przeciwny, a bliski zeru, gdy nie ma wyraźnej współzależności liniowej.
- Matematycznie r jest standaryzowaną kowariancją: kowariancję dzieli się przez iloczyn odchyleń standardowych, dzięki czemu współczynnik jest bezjednostkowy i porównywalny między różnymi skalami.
- Korelacja liniowa jest odporna na zmianę jednostek i dodanie stałej do wszystkich wartości – przeskalowanie lub przesunięcie danych nie wpływa na wartość r.
- Współczynnik r ma sens głównie dla zmiennych ilościowych (skale przedziałowe i ilorazowe); nie stosuje się go do danych nominalnych ani prostych zmiennych dwukategorialnych.
- Przed obliczeniem korelacji trzeba przygotować dane – m.in. odpowiednio obsłużyć braki danych oraz sprawdzić zakresy i jednostki, by uniknąć zniekształceń wyniku.






