statistics

相関

相関は 2 つの変数の間の線形関係の強さと向きを測る。ピアソンの係数 r は $[-1, 1]$ の範囲をとり、1 = 完全な正の相関、-1 = 完全な負の相関、0 = 線形関係なし、を表す。

相関は 2 つの変数 XXYY の間の線形関係の強さと向きを測る。ピアソンの相関係数

r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2[1,1]r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \in [-1, 1]

解釈:

  • r=1r = 1:完全な正の線形関係。
  • r=1r = -1:完全な負の線形関係。
  • r=0r = 0線形関係なし(ただし非線形の関係はあり得る!)。
  • r>0.7|r| > 0.7:強い;0.3<r<0.70.3 < |r| < 0.7:中程度;r<0.3|r| < 0.3:弱い。

重要な注意点

  • 相関は因果ではない。アイスクリームの売上は溺死者数と相関する——どちらも暑い天候によって引き起こされる。
  • 外れ値に敏感。たった 1 つの極端な点が rr を反転させ得る。
  • 線形のみ。完全な二次関係 y=x2y = x^2 は対称なデータの周りでは r0r \approx 0 となる。

順位や非線形の単調な関係にはスピアマンの ρ\rho を、カテゴリ間の関連にはカイ二乗クラメールの V を用いる。