Compare

Среднее vs медиана vs мода

Среднее, медиана и мода — три разных способа подытожить "середину" набора данных. Неверный выбор может сделать ваш анализ крайне обманчивым.

Среднее (среднее арифметическое)

xˉ=1ni=1nxi\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i

Среднее использует каждую точку данных, что одновременно его сила и слабость. Сила: минимизирует квадратичную потерю, хорошо сочетается с математическим анализом, лежит в основе регрессии / дисперсии / гауссовских распределений. Слабость: единственный экстремальный выброс может оттащить его далеко от основной массы данных.

Используйте среднее, когда данные примерно симметричны, а выбросы редки или уже удалены.

Медиана (срединное значение)

Медиана — это срединное наблюдение после сортировки. Для дохода, времени отклика, размера файла и других распределений с тяжёлыми хвостами медиана гораздо репрезентативнее среднего — если Билл Гейтс зайдёт в паб, средний доход взлетит, но медиана почти не сдвинется.

Используйте медиану для асимметричных данных, при сообщении "типичного" значения или когда важна устойчивость.

Мода (наиболее частое значение)

Мода — это значение, встречающееся чаще всего. В основном полезна для категориальных данных (любимый цвет, тип браузера), где среднее и медиана вообще неприменимы. Для непрерывных числовых данных мода часто не существует в каком-либо осмысленном виде — каждое наблюдение уникально.

Что использовать

СценарийЛучшая мера
Симметричные числовые без выбросовСреднее
Асимметричные числовые (доход, задержка)Медиана
КатегориальныеМода
Сообщить "типичное" значение широкой аудиторииМедиана
Основа для дальнейшего анализа / статистикиСреднее

Если вы только начинаете изучать статистику, усвойте это: среднее для математики, медиана для историй.

Попробуйте сами

Вставьте любой набор данных в наш калькулятор среднего, медианы и моды и посмотрите все три сразу.

At a glance

FeatureСреднееМедиана (vs мода)
Чувствительна к выбросамСильноПочти нет
Работает для категориальных данныхНетНет (используйте моду)
Лежит в основе дисперсии / регрессииДаНет
Лучше всего для асимметричных распределенийНетДа
Verdict

Используйте среднее для симметричных чистых числовых данных; медиану для асимметричных распределений или при сообщении "типичного" значения; моду для категориальных данных.