statistics

分散

分散はデータセットが平均の周りにどれだけ散らばっているかを測る。偏差の二乗の平均である。標準偏差は分散の平方根である。

分散は、データセットの値が平均からどれだけ散らばっているかを測る。平均 μ\mu を持つ NN 個の値 x1,,xNx_1, \ldots, x_N からなる母集団に対して:

σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2

標本平均 xˉ\bar{x} を持つ nn 個の値からなる標本の場合は、nn ではなく n1n - 1 で割る(ベッセルの補正、不偏推定量)。

分散が小さければ値は平均の近くに集まり、分散が大きければ散らばっている。分散は元のデータの二乗の単位で表される(データが kg なら kg²)——だからこそ、データと同じ単位を持つ標準偏差 σ=σ2\sigma = \sqrt{\sigma^2} を報告するのが普通である。

分散は推測統計学のすべての基礎をなす。信頼区間、仮説検定、回帰はいずれも分散の推定に依存する。機械学習におけるバイアス・バリアンスのトレードオフはこれにちなんで名づけられている。