statistics

상관

상관은 두 변수 사이의 선형 관계의 강도와 방향을 측정한다. 피어슨 계수 r은 [-1, 1] 범위에 있으며, 1 = 완전한 양의 상관, -1 = 완전한 음의 상관, 0 = 선형 관계 없음을 뜻한다.

상관은 두 변수 XXYY 사이의 선형 관계의 강도와 방향을 측정한다. 피어슨 상관 계수:

r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2[1,1]r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \in [-1, 1]

해석:

  • r=1r = 1: 완전한 양의 선형 관계.
  • r=1r = -1: 완전한 음의 선형 관계.
  • r=0r = 0: 선형 관계 없음(다만 비선형 관계는 있을 수 있다!).
  • r>0.7|r| > 0.7: 강함; 0.3<r<0.70.3 < |r| < 0.7: 중간; r<0.3|r| < 0.3: 약함.

중요한 유의 사항:

  • 상관은 인과가 아니다. 아이스크림 판매량은 익사 사망자 수와 상관된다 — 둘 다 더운 날씨가 원인이다.
  • 이상치에 민감하다. 단 하나의 극단적인 점이 rr 을 뒤집을 수 있다.
  • 선형 관계만 포착한다. 완전한 이차 관계 y=x2y = x^2 는 대칭적인 데이터 주변에서 r0r \approx 0 이다.

순위형이거나 비선형 단조 관계에는 스피어만 ρ\rho 를, 범주형 연관에는 카이제곱이나 크라메르 V 를 사용한다.