Compare

平均 vs 中央値 vs 最頻値

平均中央値最頻値は、データセットの「中心」を要約する3つの異なる方法です。誤ったものを選ぶと、分析が大きく誤解を招くものになりかねません。

平均(算術平均)

xˉ=1ni=1nxi\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i

平均はすべてのデータ点を使うため、それが長所でも短所でもあります。長所:二乗損失を最小化し、微積分と相性がよく、回帰・分散・ガウス分布の基礎となります。短所:たった1つの極端な外れ値がデータの大半から大きく引き離してしまうことがあります。

データがほぼ対称で、外れ値がまれか既に除去されている場合に平均を使いましょう。

中央値(真ん中の値)

中央値は、並べ替えた後の真ん中の観測値です。所得、応答時間、ファイルサイズなど裾の重い分布では、中央値は平均よりもはるかに代表的です。ビル・ゲイツがパブに入ってくると平均所得は跳ね上がりますが、中央値はほとんど動きません。

歪んだデータ、「典型的な」値を報告するとき、頑健性が重要なときには中央値を使いましょう。

最頻値(最も頻繁に現れる値)

最頻値は最も多く出現する値です。主にカテゴリーデータ(好きな色、ブラウザの種類)で役立ち、そこでは平均や中央値はそもそも適用できません。連続的な数値データでは、最頻値は意味のある形では存在しないことが多く、すべての観測値が一意です。

どれを使うか

状況最適な指標
対称で外れ値のない数値平均
歪んだ数値(所得、レイテンシ)中央値
カテゴリー最頻値
一般向けに「典型的な」値を報告中央値
さらなる微積分・統計の基礎平均

統計を学び始めたばかりなら、これを身につけましょう:計算には平均、ストーリーには中央値

自分で試してみよう

任意のデータセットを平均・中央値・最頻値計算機に貼り付けて、3つを同時に確認しましょう。

At a glance

Feature平均中央値(vs 最頻値)
外れ値の影響を受ける大きいほとんどない
カテゴリーデータで機能するいいえいいえ(最頻値を使う)
分散・回帰の基礎となるはいいいえ
歪んだ分布に最適いいえはい
Verdict

対称できれいな数値データには平均を、歪んだ分布や「典型的な」値を報告するときは中央値を、カテゴリーデータには最頻値を使いましょう。