平均數、中位數與眾數是總結資料集「中間」的三種不同方法。選錯一個會讓你的分析嚴重誤導。
平均數(算術平均)
平均數使用每一個資料點,這既是它的優點也是它的缺點。優點:最小化平方損失,與微積分搭配良好,是迴歸 / 變異數 / 高斯分布的基礎。缺點:單一個極端離群值就能把它拉離資料主體很遠。
當資料大致對稱且離群值罕見或已被移除時,使用平均數。
中位數(中間值)
中位數是排序後位於中間的觀測值。對於收入、回應時間、檔案大小及其他重尾分布,中位數比平均數更具代表性——比爾·蓋茲走進一間酒吧會抬高平均收入,卻幾乎不會撼動中位數。
對於偏態資料、回報「典型」值,或當穩健性重要時,使用中位數。
眾數(出現最頻繁的值)
眾數是出現最多次的值。主要對類別資料有用(最愛的顏色、瀏覽器類型),在那裡平均數與中位數根本不適用。對於連續數值資料,眾數通常在任何有意義的層面上都不存在——每個觀測值都是唯一的。
該用哪一個
| 情境 | 最佳量數 |
|---|---|
| 對稱、無離群值的數值 | 平均數 |
| 偏態數值(收入、延遲) | 中位數 |
| 類別 | 眾數 |
| 向一般大眾回報「典型」值 | 中位數 |
| 作為進一步微積分 / 統計的基礎 | 平均數 |
如果你剛開始學統計,內化這一點:數學用平均數,故事用中位數。
親自試試
把任何資料集貼進我們的平均數中位數眾數計算機,一次看到三者。
At a glance
| Feature | 平均數 | 中位數(vs 眾數) |
|---|---|---|
| 受離群值影響 | 嚴重 | 幾乎不 |
| 適用於類別資料 | 否 | 否(請用眾數) |
| 是變異數 / 迴歸的基礎 | 是 | 否 |
| 最適合偏態分布 | 否 | 是 |
Verdict
對對稱、乾淨的數值資料用平均數;對偏態分布或回報「典型」值用中位數;對類別資料用眾數。