Среднее, медиана и мода — три разных способа подытожить "середину" набора данных. Неверный выбор может сделать ваш анализ крайне обманчивым.
Среднее (среднее арифметическое)
Среднее использует каждую точку данных, что одновременно его сила и слабость. Сила: минимизирует квадратичную потерю, хорошо сочетается с математическим анализом, лежит в основе регрессии / дисперсии / гауссовских распределений. Слабость: единственный экстремальный выброс может оттащить его далеко от основной массы данных.
Используйте среднее, когда данные примерно симметричны, а выбросы редки или уже удалены.
Медиана (срединное значение)
Медиана — это срединное наблюдение после сортировки. Для дохода, времени отклика, размера файла и других распределений с тяжёлыми хвостами медиана гораздо репрезентативнее среднего — если Билл Гейтс зайдёт в паб, средний доход взлетит, но медиана почти не сдвинется.
Используйте медиану для асимметричных данных, при сообщении "типичного" значения или когда важна устойчивость.
Мода (наиболее частое значение)
Мода — это значение, встречающееся чаще всего. В основном полезна для категориальных данных (любимый цвет, тип браузера), где среднее и медиана вообще неприменимы. Для непрерывных числовых данных мода часто не существует в каком-либо осмысленном виде — каждое наблюдение уникально.
Что использовать
| Сценарий | Лучшая мера |
|---|---|
| Симметричные числовые без выбросов | Среднее |
| Асимметричные числовые (доход, задержка) | Медиана |
| Категориальные | Мода |
| Сообщить "типичное" значение широкой аудитории | Медиана |
| Основа для дальнейшего анализа / статистики | Среднее |
Если вы только начинаете изучать статистику, усвойте это: среднее для математики, медиана для историй.
Попробуйте сами
Вставьте любой набор данных в наш калькулятор среднего, медианы и моды и посмотрите все три сразу.
At a glance
| Feature | Среднее | Медиана (vs мода) |
|---|---|---|
| Чувствительна к выбросам | Сильно | Почти нет |
| Работает для категориальных данных | Нет | Нет (используйте моду) |
| Лежит в основе дисперсии / регрессии | Да | Нет |
| Лучше всего для асимметричных распределений | Нет | Да |
Используйте среднее для симметричных чистых числовых данных; медиану для асимметричных распределений или при сообщении "типичного" значения; моду для категориальных данных.