分散は、データセットの値が平均からどれだけ散らばっているかを測る。平均 $\mu$ を持つ $N$ 個の値 $x_1, \ldots, x_N$ からなる母集団に対して：

$\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2$

標本平均 $\bar{x}$ を持つ $n$ 個の値からなる標本の場合は、 $n$ ではなく $n - 1$ で割る（ベッセルの補正、不偏推定量）。

分散が小さければ値は平均の近くに集まり、分散が大きければ散らばっている。分散は元のデータの二乗の単位で表される（データが kg なら kg²）——だからこそ、データと同じ単位を持つ標準偏差 $\sigma = \sqrt{\sigma^2}$ を報告するのが普通である。

分散は推測統計学のすべての基礎をなす。信頼区間、仮説検定、回帰はいずれも分散の推定に依存する。機械学習におけるバイアス・バリアンスのトレードオフはこれにちなんで名づけられている。

分散

Related resources