분산은 데이터셋의 값들이 평균에서 얼마나 흩어져 있는지를 측정한다. 평균 를 가진 개의 값 으로 이루어진 모집단에 대해:
표본평균 를 가진 개의 값으로 이루어진 표본의 경우, 대신 로 나눈다(베셀 보정, 불편 추정량).
분산이 작으면 값들이 평균 가까이 모이고, 분산이 크면 흩어져 있다. 분산은 원래 데이터의 제곱 단위로 표현된다(데이터가 kg이면 kg²) — 그래서 보통 데이터와 같은 단위를 갖는 표준편차 를 보고한다.
분산은 추론 통계학 전체의 토대를 이룬다. 신뢰구간, 가설검정, 회귀는 모두 분산 추정에 의존한다. 기계 학습의 편향-분산 트레이드오프는 이 분산에서 이름을 따왔다.