statistics

中央値

中央値は、並べ替えたデータセットの真ん中の値である。データ数が偶数の場合は、中央の2つの値の平均をとる。外れ値に対して頑健である。

中央値は、順序付けられたデータセットの真ん中の値である。nn 個のデータを昇順に並べたとき:

  • nn が奇数なら、中央値は (n+12)\left(\frac{n+1}{2}\right) 番目の値である。
  • nn が偶数なら、中央値は n2\frac{n}{2} 番目と (n2+1)\left(\frac{n}{2}+1\right) 番目の値の平均である。

中央値は標準的な代表値の中で最も頑健である。平均値は1つの極端な外れ値で大きく動くが、中央値は影響を受けない。だからこそ経済学者は平均ではなく中央値の世帯所得を報告する——ベゾスが街の一区画に現れれば平均所得は何百万にもなるが、中央値は変わらない。

歪んだ分布(所得、応答時間、ファイルサイズ)には中央値を使う。データがほぼ対称で外れ値がまれな場合は平均を使う。中央値は絶対偏差の和 xic\sum |x_i - c| を最小にする値でもあり、平均が二乗偏差を最小にすることと対応している。