標準差是入門統計學中最容易被誤解的概念。人們知道它「衡量離散程度」，但被問到這個數字到底代表什麼時就愣住了。本指南用三種方式來解釋它——幾何的、計算的、直覺的——這樣下次你在論文或報告裡看到 $\sigma$ 時，你是真的理解它代表什麼。

用大白話定義

標準差回答的是：平均而言，每個資料點離平均數有多遠？

用符號表示，對一個有 $N$ 個值 $x_1, \ldots, x_N$ 、平均數為 $\mu$ 的母體：

$\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2}$

讀出來就是：「平方偏差的平均，然後開根號。」

為什麼先平方，再開根號？

對「離平均數的平均距離」一個合理的初步嘗試也許是 $\frac{1}{N}\sum |x_i - \mu|$ ——也就是平均絕對偏差。它確實可行，統計學家有時也會用它（它對離群值更穩健）。

但絕對值在數學上很彆扭——它在零點不可微，導數會爆掉，你也沒辦法乾淨俐落地對它做微積分。平方繞過了這一切，而最後的開根號把單位帶回原本的尺度（所以如果 $x$ 以美元計， $\sigma$ 也是美元，而不是美元²）。

這也是機器學習使用平方損失（均方誤差）的原因——平方可微、與微積分配合得很好，而且得到的估計量往往是最優的。

母體 vs 樣本—— $n-1$ 與 $n$ 之爭

存在兩個公式，而它們的差別很重要：

母體（你有全部資料）：除以 $N$ 。符號 $\sigma$ 。
樣本（你有一個樣本，想估計母體）：除以 $n - 1$ 。符號 $s$ 。

樣本公式裡的 $n - 1$ 稱為貝索校正（Bessel's correction）。為什麼？因為用 $n$ 會系統性地低估母體標準差，原因是你用了樣本平均數（依其構造它本來就是樣本的最佳擬合），這使得偏差被擠得比相對於真實母體平均數時更小。改成除以 $n - 1$ 而不是 $n$ 剛好補償了這一點。

大多數計算機與軟體預設使用樣本公式。要留意。

解題範例 1：小型對稱資料集

資料： $\{2, 4, 4, 4, 5, 5, 7, 9\}$ 。（8 個值；經典課本範例。）

平均數： $\bar{x} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5$ 。
離平均數的偏差： $-3, -1, -1, -1, 0, 0, 2, 4$ 。
平方偏差： $9, 1, 1, 1, 0, 0, 4, 16$ 。
總和： $32$ 。
母體（ $N = 8$ ）：變異數 $= 32/8 = 4$ ， $\sigma = 2$ 。
樣本（ $n - 1 = 7$ ）：變異數 $= 32/7 \approx 4.57$ ， $s \approx 2.14$ 。

68-95-99.7 法則（僅適用於常態分布）

如果你的資料近似常態（鐘形）：

$\approx 68\%$ 的值落在平均數的 $1\sigma$ 之內。
$\approx 95\%$ 落在 $2\sigma$ 之內。
$\approx 99.7\%$ 落在 $3\sigma$ 之內。

這就是為什麼「 $\pm 2\sigma$ 」或「兩個西格瑪」是「統計上不尋常」的預設口語定義。

⚠️ 警告：此法則僅適用於常態分布。對於偏斜或厚尾的資料（收入、反應時間）， $1\sigma$ 可能涵蓋 80% 的資料——也可能只有 50%。在引用 68-95-99.7 這些數字之前，務必先檢查分布形狀（直方圖、QQ 圖）。

標準差 vs 變異數

變異數就是 $\sigma^2$ 。它們包含完全相同的資訊，那為什麼兩個都要有？

標準差與資料有相同的單位——可解讀。
變異數對獨立變數可以可加性地分解（獨立時 $\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y)$ ），使它成為在證明、期望值與變異數分析（ANOVA）中代數上方便的量。

回報時用 $\sigma$ ；做計算時用 $\sigma^2$ 。

常見錯誤

沒有脈絡就引用 $\sigma$ 。如果你不知道平均數，「 $\sigma = 5$ 」毫無意義。永遠成對寫出：「平均數 $= 100$ ， $\sigma = 5$ 。」
混用母體與樣本公式。在小樣本下這會造成實質差別。在大樣本（ $n > 100$ ）下差別可忽略。
忘記離群值敏感性。一個極端值就能讓 $\sigma$ 暴增。對厚尾資料，也一併回報中位數絕對偏差（MAD）以求穩健。
把 68-95-99.7 套用到非常態資料。見上文。

自己動手試試

把任意資料集丟進我們的免費標準差計算器——選擇母體或樣本，看逐步計算過程，並對照本指南驗證。

相關資料：

無痛理解標準差

用大白話講清楚標準差：它到底測量什麼、母體與樣本的差別、68-95-99.7 法則，以及三個你可以親自驗證的解題範例。

用大白話定義

為什麼先平方，再開根號？

母體 vs 樣本—— $n-1$ 與 $n$ 之爭

解題範例 1：小型對稱資料集

68-95-99.7 法則（僅適用於常態分布）

標準差 vs 變異數

常見錯誤

自己動手試試

無痛理解標準差

用大白話講清楚標準差：它到底測量什麼、母體與樣本的差別、68-95-99.7 法則，以及三個你可以親自驗證的解題範例。

用大白話定義

為什麼先平方，再開根號？

母體 vs 樣本——n−1n-1n−1 與 nnn 之爭

解題範例 1：小型對稱資料集

68-95-99.7 法則（僅適用於常態分布）

標準差 vs 變異數

常見錯誤

自己動手試試

母體 vs 樣本—— $n-1$ 與 $n$ 之爭