Compare

平均數 vs 中位數 vs 眾數

平均數中位數眾數是總結資料集「中間」的三種不同方法。選錯一個會讓你的分析嚴重誤導。

平均數(算術平均)

xˉ=1ni=1nxi\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i

平均數使用每一個資料點,這既是它的優點也是它的缺點。優點:最小化平方損失,與微積分搭配良好,是迴歸 / 變異數 / 高斯分布的基礎。缺點:單一個極端離群值就能把它拉離資料主體很遠。

當資料大致對稱且離群值罕見或已被移除時,使用平均數。

中位數(中間值)

中位數是排序後位於中間的觀測值。對於收入、回應時間、檔案大小及其他重尾分布,中位數比平均數更具代表性——比爾·蓋茲走進一間酒吧會抬高平均收入,卻幾乎不會撼動中位數。

對於偏態資料、回報「典型」值,或當穩健性重要時,使用中位數。

眾數(出現最頻繁的值)

眾數是出現最多次的值。主要對類別資料有用(最愛的顏色、瀏覽器類型),在那裡平均數與中位數根本不適用。對於連續數值資料,眾數通常在任何有意義的層面上都不存在——每個觀測值都是唯一的。

該用哪一個

情境最佳量數
對稱、無離群值的數值平均數
偏態數值(收入、延遲)中位數
類別眾數
向一般大眾回報「典型」值中位數
作為進一步微積分 / 統計的基礎平均數

如果你剛開始學統計,內化這一點:數學用平均數,故事用中位數

親自試試

把任何資料集貼進我們的平均數中位數眾數計算機,一次看到三者。

At a glance

Feature平均數中位數(vs 眾數)
受離群值影響嚴重幾乎不
適用於類別資料否(請用眾數)
是變異數 / 迴歸的基礎
最適合偏態分布
Verdict

對對稱、乾淨的數值資料用平均數;對偏態分布或回報「典型」值用中位數;對類別資料用眾數