statistics

變異數

變異數衡量資料集相對於平均數的離散程度。它是離差平方的平均值。標準差是變異數的平方根。

變異數衡量資料集的數值相對於平均數的離散程度。對於含有 NN 個數值 x1,,xNx_1, \ldots, x_N、平均數為 μ\mu 的母體:

σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2

對於含有 nn 個數值、樣本平均數為 xˉ\bar{x}樣本,要除以 n1n - 1 而非 nn(貝索校正,一個不偏估計量)。

變異數小代表數值聚集在平均數附近;變異數大代表數值分散。變異數的單位是原始資料單位的平方(若資料單位為 kg,則為 kg²)——這正是我們通常改報標準差 σ=σ2\sigma = \sqrt{\sigma^2} 的原因,因為它與資料具有相同的單位。

變異數是所有推論統計的基礎:信賴區間、假設檢定與迴歸全都仰賴對變異數的估計。機器學習中的偏差─變異數權衡便是因它而得名。