statistics

Median

The median is the middle value of a sorted dataset. For even-sized data, it is the average of the two middle values. Robust to outliers.

中位數是已排序資料集的中間值。將 nn 個資料點由小到大排序後:

  • nn 為奇數,中位數是第 (n+12)\left(\frac{n+1}{2}\right) 個值。
  • nn 為偶數,中位數是第 n2\frac{n}{2} 與第 (n2+1)\left(\frac{n}{2}+1\right) 個值的平均。

中位數是標準集中趨勢量數中最穩健的。平均數會因單一極端離群值而劇烈偏移,中位數則不受影響。這正是經濟學家報告中位數家庭所得而非平均數的原因——若貝佐斯走進某個街區,平均所得會被推高到數百萬,中位數卻文風不動。

對於偏態分布(所得、回應時間、檔案大小)使用中位數;當資料大致對稱且離群值罕見時使用平均數。中位數也是使絕對離差和 xic\sum |x_i - c| 最小的值,與平均數使平方離差最小相對應。