상관은 두 변수 X 와 Y 사이의 선형 관계의 강도와 방향을 측정한다. 피어슨 상관 계수:
r=∑(xi−xˉ)2∑(yi−yˉ)2∑(xi−xˉ)(yi−yˉ)∈[−1,1]
해석:
- r=1: 완전한 양의 선형 관계.
- r=−1: 완전한 음의 선형 관계.
- r=0: 선형 관계 없음(다만 비선형 관계는 있을 수 있다!).
- ∣r∣>0.7: 강함; 0.3<∣r∣<0.7: 중간; ∣r∣<0.3: 약함.
중요한 유의 사항:
- 상관은 인과가 아니다. 아이스크림 판매량은 익사 사망자 수와 상관된다 — 둘 다 더운 날씨가 원인이다.
- 이상치에 민감하다. 단 하나의 극단적인 점이 r 을 뒤집을 수 있다.
- 선형 관계만 포착한다. 완전한 이차 관계 y=x2 는 대칭적인 데이터 주변에서 r≈0 이다.
순위형이거나 비선형 단조 관계에는 스피어만 ρ 를, 범주형 연관에는 카이제곱이나 크라메르 V 를 사용한다.