statistics

분산

분산은 데이터셋이 평균을 중심으로 얼마나 흩어져 있는지를 측정한다. 편차 제곱의 평균이다. 표준편차는 분산의 제곱근이다.

분산은 데이터셋의 값들이 평균에서 얼마나 흩어져 있는지를 측정한다. 평균 μ\mu 를 가진 NN 개의 값 x1,,xNx_1, \ldots, x_N 으로 이루어진 모집단에 대해:

σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2

표본평균 xˉ\bar{x} 를 가진 nn 개의 값으로 이루어진 표본의 경우, nn 대신 n1n - 1 로 나눈다(베셀 보정, 불편 추정량).

분산이 작으면 값들이 평균 가까이 모이고, 분산이 크면 흩어져 있다. 분산은 원래 데이터의 제곱 단위로 표현된다(데이터가 kg이면 kg²) — 그래서 보통 데이터와 같은 단위를 갖는 표준편차 σ=σ2\sigma = \sqrt{\sigma^2} 를 보고한다.

분산은 추론 통계학 전체의 토대를 이룬다. 신뢰구간, 가설검정, 회귀는 모두 분산 추정에 의존한다. 기계 학습의 편향-분산 트레이드오프는 이 분산에서 이름을 따왔다.