平均・中央値・最頻値は、データセットの「中心」を要約する3つの異なる方法です。誤ったものを選ぶと、分析が大きく誤解を招くものになりかねません。
平均(算術平均)
平均はすべてのデータ点を使うため、それが長所でも短所でもあります。長所:二乗損失を最小化し、微積分と相性がよく、回帰・分散・ガウス分布の基礎となります。短所:たった1つの極端な外れ値がデータの大半から大きく引き離してしまうことがあります。
データがほぼ対称で、外れ値がまれか既に除去されている場合に平均を使いましょう。
中央値(真ん中の値)
中央値は、並べ替えた後の真ん中の観測値です。所得、応答時間、ファイルサイズなど裾の重い分布では、中央値は平均よりもはるかに代表的です。ビル・ゲイツがパブに入ってくると平均所得は跳ね上がりますが、中央値はほとんど動きません。
歪んだデータ、「典型的な」値を報告するとき、頑健性が重要なときには中央値を使いましょう。
最頻値(最も頻繁に現れる値)
最頻値は最も多く出現する値です。主にカテゴリーデータ(好きな色、ブラウザの種類)で役立ち、そこでは平均や中央値はそもそも適用できません。連続的な数値データでは、最頻値は意味のある形では存在しないことが多く、すべての観測値が一意です。
どれを使うか
| 状況 | 最適な指標 |
|---|---|
| 対称で外れ値のない数値 | 平均 |
| 歪んだ数値(所得、レイテンシ) | 中央値 |
| カテゴリー | 最頻値 |
| 一般向けに「典型的な」値を報告 | 中央値 |
| さらなる微積分・統計の基礎 | 平均 |
統計を学び始めたばかりなら、これを身につけましょう:計算には平均、ストーリーには中央値。
自分で試してみよう
任意のデータセットを平均・中央値・最頻値計算機に貼り付けて、3つを同時に確認しましょう。
At a glance
| Feature | 平均 | 中央値(vs 最頻値) |
|---|---|---|
| 外れ値の影響を受ける | 大きい | ほとんどない |
| カテゴリーデータで機能する | いいえ | いいえ(最頻値を使う) |
| 分散・回帰の基礎となる | はい | いいえ |
| 歪んだ分布に最適 | いいえ | はい |
Verdict
対称できれいな数値データには平均を、歪んだ分布や「典型的な」値を報告するときは中央値を、カテゴリーデータには最頻値を使いましょう。