분산은 데이터셋의 값들이 평균에서 얼마나 흩어져 있는지를 측정한다. 평균 $\mu$ 를 가진 $N$ 개의 값 $x_1, \ldots, x_N$ 으로 이루어진 모집단에 대해:

$\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2$

표본평균 $\bar{x}$ 를 가진 $n$ 개의 값으로 이루어진 표본의 경우, $n$ 대신 $n - 1$ 로 나눈다(베셀 보정, 불편 추정량).

분산이 작으면 값들이 평균 가까이 모이고, 분산이 크면 흩어져 있다. 분산은 원래 데이터의 제곱 단위로 표현된다(데이터가 kg이면 kg²) — 그래서 보통 데이터와 같은 단위를 갖는 표준편차 $\sigma = \sqrt{\sigma^2}$ 를 보고한다.

분산은 추론 통계학 전체의 토대를 이룬다. 신뢰구간, 가설검정, 회귀는 모두 분산 추정에 의존한다. 기계 학습의 편향-분산 트레이드오프는 이 분산에서 이름을 따왔다.

분산

Related resources