分散は、データセットの値が平均からどれだけ散らばっているかを測る。平均 を持つ 個の値 からなる母集団に対して:
標本平均 を持つ 個の値からなる標本の場合は、 ではなく で割る(ベッセルの補正、不偏推定量)。
分散が小さければ値は平均の近くに集まり、分散が大きければ散らばっている。分散は元のデータの二乗の単位で表される(データが kg なら kg²)——だからこそ、データと同じ単位を持つ標準偏差 を報告するのが普通である。
分散は推測統計学のすべての基礎をなす。信頼区間、仮説検定、回帰はいずれも分散の推定に依存する。機械学習におけるバイアス・バリアンスのトレードオフはこれにちなんで名づけられている。