statistics

中位数

中位数是已排序数据集的中间值。当数据个数为偶数时,取中间两个值的平均。它对离群值具有稳健性。

中位数是已排序数据集的中间值。将 nn 个数据点按升序排列后:

  • nn 为奇数,中位数是第 (n+12)\left(\frac{n+1}{2}\right) 个值。
  • nn 为偶数,中位数是第 n2\frac{n}{2} 个值与第 (n2+1)\left(\frac{n}{2}+1\right) 个值的平均。

中位数是标准集中趋势量数中最稳健的。平均数会因单个极端离群值而剧烈偏移,中位数则不受影响。这正是经济学家报告中位数家庭收入而非平均数的原因——若贝佐斯走进某个街区,平均收入会被推高到数百万,中位数却纹丝不动。

对于偏态分布(收入、响应时间、文件大小)使用中位数;当数据大致对称且离群值罕见时使用平均数。中位数也是使绝对偏差之和 xic\sum |x_i - c| 最小的值,与平均数使平方偏差最小相对应。