statistics

相关

相关衡量两个变量之间线性关系的强度与方向。皮尔逊系数 r 落在 $[-1, 1]$:1 = 完全正相关,-1 = 完全负相关,0 = 没有线性关系。

相关衡量两个变量 XXYY 之间线性关系的强度与方向。皮尔逊相关系数

r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2[1,1]r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \in [-1, 1]

解释:

  • r=1r = 1:完全正向的线性关系。
  • r=1r = -1:完全负向的线性关系。
  • r=0r = 0:没有线性关系(但仍可能存在非线性关系!)。
  • r>0.7|r| > 0.7:强;0.3<r<0.70.3 < |r| < 0.7:中等;r<0.3|r| < 0.3:弱。

关键注意事项

  • 相关不等于因果。冰淇淋销量与溺水死亡人数相关——两者皆由炎热天气所驱动。
  • 对离群值敏感。单一个极端点就可能使 rr 翻转。
  • 仅限线性。完全的二次关系 y=x2y = x^2 在对称数据附近会得到 r0r \approx 0

对于排名型/非线性的单调关系,使用斯皮尔曼 ρ\rho。对于类别型关联,使用卡方克拉默 V