標準差是入門統計學中最容易被誤解的概念。人們知道它「衡量離散程度」,但被問到這個數字到底代表什麼時就愣住了。本指南用三種方式來解釋它——幾何的、計算的、直覺的——這樣下次你在論文或報告裡看到 時,你是真的理解它代表什麼。
用大白話定義
標準差回答的是:平均而言,每個資料點離平均數有多遠?
用符號表示,對一個有 個值 、平均數為 的母體:
讀出來就是:「平方偏差的平均,然後開根號。」
為什麼先平方,再開根號?
對「離平均數的平均距離」一個合理的初步嘗試也許是 ——也就是平均絕對偏差。它確實可行,統計學家有時也會用它(它對離群值更穩健)。
但絕對值在數學上很彆扭——它在零點不可微,導數會爆掉,你也沒辦法乾淨俐落地對它做微積分。平方繞過了這一切,而最後的開根號把單位帶回原本的尺度(所以如果 以美元計, 也是美元,而不是美元²)。
這也是機器學習使用平方損失(均方誤差)的原因——平方可微、與微積分配合得很好,而且得到的估計量往往是最優的。
母體 vs 樣本—— 與 之爭
存在兩個公式,而它們的差別很重要:
- 母體(你有全部資料):除以 。符號 。
- 樣本(你有一個樣本,想估計母體):除以 。符號 。
樣本公式裡的 稱為貝索校正(Bessel's correction)。為什麼?因為用 會系統性地低估母體標準差,原因是你用了樣本平均數(依其構造它本來就是樣本的最佳擬合),這使得偏差被擠得比相對於真實母體平均數時更小。改成除以 而不是 剛好補償了這一點。
大多數計算機與軟體預設使用樣本公式。要留意。
解題範例 1:小型對稱資料集
資料:。(8 個值;經典課本範例。)
- 平均數:。
- 離平均數的偏差:。
- 平方偏差:。
- 總和:。
- 母體():變異數 ,。
- 樣本():變異數 ,。
68-95-99.7 法則(僅適用於常態分布)
如果你的資料近似常態(鐘形):
- 的值落在平均數的 之內。
- 落在 之內。
- 落在 之內。
這就是為什麼「」或「兩個西格瑪」是「統計上不尋常」的預設口語定義。
⚠️ 警告:此法則僅適用於常態分布。對於偏斜或厚尾的資料(收入、反應時間), 可能涵蓋 80% 的資料——也可能只有 50%。在引用 68-95-99.7 這些數字之前,務必先檢查分布形狀(直方圖、QQ 圖)。
標準差 vs 變異數
變異數就是 。它們包含完全相同的資訊,那為什麼兩個都要有?
- 標準差與資料有相同的單位——可解讀。
- 變異數對獨立變數可以可加性地分解(獨立時 ),使它成為在證明、期望值與變異數分析(ANOVA)中代數上方便的量。
回報時用 ;做計算時用 。
常見錯誤
- 沒有脈絡就引用 。如果你不知道平均數,「」毫無意義。永遠成對寫出:「平均數 ,。」
- 混用母體與樣本公式。在小樣本下這會造成實質差別。在大樣本()下差別可忽略。
- 忘記離群值敏感性。一個極端值就能讓 暴增。對厚尾資料,也一併回報中位數絕對偏差(MAD)以求穩健。
- 把 68-95-99.7 套用到非常態資料。見上文。
自己動手試試
把任意資料集丟進我們的免費標準差計算器——選擇母體或樣本,看逐步計算過程,並對照本指南驗證。
相關資料: