statistics

相關

相關衡量兩個變數之間線性關係的強度與方向。皮爾森係數 r 落在 $[-1, 1]$:1 = 完全正相關,-1 = 完全負相關,0 = 沒有線性關係。

相關衡量兩個變數 XXYY 之間線性關係的強度與方向。皮爾森相關係數

r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2[1,1]r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \in [-1, 1]

詮釋:

  • r=1r = 1:完全正向的線性關係。
  • r=1r = -1:完全負向的線性關係。
  • r=0r = 0:沒有線性關係(但仍可能存在非線性關係!)。
  • r>0.7|r| > 0.7:強;0.3<r<0.70.3 < |r| < 0.7:中等;r<0.3|r| < 0.3:弱。

關鍵注意事項

  • 相關不等於因果。冰淇淋銷量與溺水死亡人數相關——兩者皆由炎熱天氣所驅動。
  • 對離群值敏感。單一個極端點就可能使 rr 翻轉。
  • 僅限線性。完全的二次關係 y=x2y = x^2 在對稱資料附近會得到 r0r \approx 0

對於排名型/非線性的單調關係,使用斯皮爾曼 ρ\rho。對於類別型關聯,使用卡方克拉默 V