statistics

無痛理解標準差

用大白話講清楚標準差:它到底測量什麼、母體與樣本的差別、68-95-99.7 法則,以及三個你可以親自驗證的解題範例。
AI-Math Editorial Team

By AI-Math Editorial Team

Published 2026-05-02

標準差是入門統計學中最容易被誤解的概念。人們知道它「衡量離散程度」,但被問到這個數字到底代表什麼時就愣住了。本指南用三種方式來解釋它——幾何的、計算的、直覺的——這樣下次你在論文或報告裡看到 σ\sigma 時,你是真的理解它代表什麼。

用大白話定義

標準差回答的是:平均而言,每個資料點離平均數有多遠?

用符號表示,對一個有 NN 個值 x1,,xNx_1, \ldots, x_N、平均數為 μ\mu 的母體:

σ=1Ni=1N(xiμ)2\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2}

讀出來就是:「平方偏差的平均,然後開根號。」

為什麼先平方,再開根號?

對「離平均數的平均距離」一個合理的初步嘗試也許是 1Nxiμ\frac{1}{N}\sum |x_i - \mu|——也就是平均絕對偏差。它確實可行,統計學家有時也會用它(它對離群值更穩健)。

但絕對值在數學上很彆扭——它在零點不可微,導數會爆掉,你也沒辦法乾淨俐落地對它做微積分。平方繞過了這一切,而最後的開根號把單位帶回原本的尺度(所以如果 xx 以美元計,σ\sigma 也是美元,而不是美元²)。

這也是機器學習使用平方損失(均方誤差)的原因——平方可微、與微積分配合得很好,而且得到的估計量往往是最優的。

母體 vs 樣本——n1n-1nn 之爭

存在兩個公式,而它們的差別很重要:

  • 母體(你有全部資料):除以 NN。符號 σ\sigma
  • 樣本(你有一個樣本,想估計母體):除以 n1n - 1。符號 ss

樣本公式裡的 n1n - 1 稱為貝索校正(Bessel's correction)。為什麼?因為用 nn 會系統性地低估母體標準差,原因是你用了樣本平均數(依其構造它本來就是樣本的最佳擬合),這使得偏差被擠得比相對於真實母體平均數時更小。改成除以 n1n - 1 而不是 nn 剛好補償了這一點。

大多數計算機與軟體預設使用樣本公式。要留意。

解題範例 1:小型對稱資料集

資料:{2,4,4,4,5,5,7,9}\{2, 4, 4, 4, 5, 5, 7, 9\}。(8 個值;經典課本範例。)

  1. 平均數:xˉ=2+4+4+4+5+5+7+98=5\bar{x} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5
  2. 離平均數的偏差:3,1,1,1,0,0,2,4-3, -1, -1, -1, 0, 0, 2, 4
  3. 平方偏差:9,1,1,1,0,0,4,169, 1, 1, 1, 0, 0, 4, 16
  4. 總和:3232
  5. 母體N=8N = 8):變異數 =32/8=4= 32/8 = 4σ=2\sigma = 2
  6. 樣本n1=7n - 1 = 7):變異數 =32/74.57= 32/7 \approx 4.57s2.14s \approx 2.14

68-95-99.7 法則(僅適用於常態分布)

如果你的資料近似常態(鐘形):

  • 68%\approx 68\% 的值落在平均數的 1σ1\sigma 之內。
  • 95%\approx 95\% 落在 2σ2\sigma 之內。
  • 99.7%\approx 99.7\% 落在 3σ3\sigma 之內。

這就是為什麼「±2σ\pm 2\sigma」或「兩個西格瑪」是「統計上不尋常」的預設口語定義。

⚠️ 警告:此法則僅適用於常態分布。對於偏斜或厚尾的資料(收入、反應時間),1σ1\sigma 可能涵蓋 80% 的資料——也可能只有 50%。在引用 68-95-99.7 這些數字之前,務必先檢查分布形狀(直方圖、QQ 圖)。

標準差 vs 變異數

變異數就是 σ2\sigma^2。它們包含完全相同的資訊,那為什麼兩個都要有?

  • 標準差與資料有相同的單位——可解讀
  • 變異數對獨立變數可以可加性地分解(獨立時 Var(X+Y)=Var(X)+Var(Y)\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y)),使它成為在證明、期望值與變異數分析(ANOVA)中代數上方便的量。

回報時用 σ\sigma;做計算時用 σ2\sigma^2

常見錯誤

  1. 沒有脈絡就引用 σ\sigma。如果你不知道平均數,「σ=5\sigma = 5」毫無意義。永遠成對寫出:「平均數 =100= 100σ=5\sigma = 5。」
  2. 混用母體與樣本公式。在小樣本下這會造成實質差別。在大樣本(n>100n > 100)下差別可忽略。
  3. 忘記離群值敏感性。一個極端值就能讓 σ\sigma 暴增。對厚尾資料,也一併回報中位數絕對偏差(MAD)以求穩健。
  4. 把 68-95-99.7 套用到非常態資料。見上文。

自己動手試試

把任意資料集丟進我們的免費標準差計算器——選擇母體或樣本,看逐步計算過程,並對照本指南驗證。

相關資料:

AI-Math Editorial Team

By AI-Math Editorial Team

Published 2026-05-02

A small team of engineers, mathematicians, and educators behind AI-Math, focused on making step-by-step math help accessible to every student.