statistics

Корреляция

Корреляция измеряет силу и направление линейной связи между двумя переменными. Коэффициент Пирсона r лежит в [-1, 1]: 1 = идеальная положительная, -1 = идеальная отрицательная, 0 = нет линейной связи.

Корреляция измеряет силу и направление линейной связи между двумя переменными XX и YY. Коэффициент корреляции Пирсона:

r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2[1,1]r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \in [-1, 1]

Интерпретация:

  • r=1r = 1: идеальная положительная линейная связь.
  • r=1r = -1: идеальная отрицательная линейная связь.
  • r=0r = 0: нет линейной связи (но возможна нелинейная!).
  • r>0.7|r| > 0.7: сильная; 0.3<r<0.70.3 < |r| < 0.7: умеренная; r<0.3|r| < 0.3: слабая.

Важнейшие оговорки:

  • Корреляция не означает причинно-следственную связь. Продажи мороженого коррелируют с числом утоплений — и то и другое обусловлено жаркой погодой.
  • Чувствительность к выбросам. Одна-единственная экстремальная точка может перевернуть знак rr.
  • Только линейная. Идеальная квадратичная зависимость y=x2y = x^2 на симметричных данных даёт r0r \approx 0.

Для ранговых или нелинейных монотонных связей используйте ρ\rho Спирмена. Для связи между категориями используйте критерий хи-квадрат или V Крамера.