Стандартное отклонение — самое неправильно понимаемое понятие во вводной статистике. Люди знают, что оно «измеряет разброс», но застывают, когда их спрашивают, что это число на самом деле означает. Это руководство объясняет его тремя способами — геометрически, вычислительно и интуитивно, — чтобы в следующий раз, увидев $\sigma$ в статье или отчёте, вы действительно понимали, что там стоит.

Определение простым языком

Стандартное отклонение отвечает на вопрос: в среднем, насколько далеко каждая точка данных отстоит от среднего значения?

Символически, для генеральной совокупности из $N$ значений $x_1, \ldots, x_N$ со средним $\mu$ :

$\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2}$

Читается вслух: «среднее квадратичное отклонение, затем квадратный корень».

Почему сначала квадрат, потом корень?

Разумная первая попытка определить «среднее расстояние от среднего» — это $\frac{1}{N}\sum |x_i - \mu|$ , среднее абсолютное отклонение. Оно работает, и статистики иногда его используют (оно более устойчиво к выбросам).

Но абсолютное значение математически неудобно — оно не дифференцируемо в нуле, производные взрываются, и с ним нельзя аккуратно работать в анализе. Возведение в квадрат обходит всё это, а квадратный корень в конце возвращает единицы измерения к исходному масштабу (так что $\sigma$ измеряется в долларах, если $x$ в долларах, а не в долларах²).

По той же причине машинное обучение использует квадратичную функцию потерь (среднеквадратичную ошибку) — возведение в квадрат дифференцируемо, хорошо сочетается с анализом, и получаемые оценки часто оптимальны.

Генеральная совокупность против выборки — история про $n-1$ vs $n$

Существуют две формулы, и разница важна:

Генеральная совокупность (у вас есть все данные): делим на $N$ . Обозначение $\sigma$ .
Выборка (у вас есть выборка, хотите оценить совокупность): делим на $n - 1$ . Обозначение $s$ .

Множитель $n - 1$ в формуле для выборки — это поправка Бесселя. Почему? Использование $n$ систематически занижало бы стандартное отклонение совокупности, потому что вы использовали выборочное среднее (которое по построению наилучшим образом подходит к выборке), сжимая отклонения меньше, чем они были бы относительно истинного среднего совокупности. Деление на $n - 1$ вместо $n$ точно компенсирует это.

Большинство калькуляторов и программ по умолчанию используют формулу для выборки. Будьте внимательны.

Разобранный пример 1: небольшой симметричный набор данных

Данные: $\{2, 4, 4, 4, 5, 5, 7, 9\}$ . (8 значений; классический учебный пример.)

Среднее: $\bar{x} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5$ .
Отклонения от среднего: $-3, -1, -1, -1, 0, 0, 2, 4$ .
Квадраты отклонений: $9, 1, 1, 1, 0, 0, 4, 16$ .
Сумма: $32$ .
Генеральная совокупность ( $N = 8$ ): дисперсия $= 32/8 = 4$ , $\sigma = 2$ .
Выборка ( $n - 1 = 7$ ): дисперсия $= 32/7 \approx 4{,}57$ , $s \approx 2{,}14$ .

Правило 68-95-99,7 (только для нормальных распределений)

Если ваши данные приблизительно нормальны (имеют форму колокола):

$\approx 68\%$ значений попадают в пределах $1\sigma$ от среднего.
$\approx 95\%$ в пределах $2\sigma$ .
$\approx 99{,}7\%$ в пределах $3\sigma$ .

Именно поэтому « $\pm 2\sigma$ » или «два сигма» — это стандартное неформальное определение «статистически необычного».

⚠️ Предупреждение: это правило применимо только к нормальным распределениям. Для скошенных данных или данных с тяжёлыми хвостами (доход, время отклика) $1\sigma$ может покрывать 80 % данных — или 50 %. Всегда проверяйте форму распределения (гистограмма, QQ-график), прежде чем приводить числа 68-95-99,7.

Стандартное отклонение против дисперсии

Дисперсия — это просто $\sigma^2$ . Они содержат одинаковую информацию, так зачем нужны обе?

Стандартное отклонение имеет те же единицы, что и данные, — интерпретируемо.
Дисперсия аддитивно раскладывается для независимых переменных ( $\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y)$ при независимости), что делает её алгебраически удобной величиной для доказательств, математических ожиданий и дисперсионного анализа.

Используйте $\sigma$ при отчётности; используйте $\sigma^2$ при вычислениях.

Частые ошибки

Приведение $\sigma$ без контекста. « $\sigma = 5$ » ничего не значит, если вы не знаете среднего. Всегда указывайте в паре: «среднее $= 100$ , $\sigma = 5$ ».
Смешивание формул для совокупности и выборки. На малых выборках это даёт реальную разницу. На больших выборках ( $n > 100$ ) разница пренебрежимо мала.
Забывают про чувствительность к выбросам. Одно экстремальное значение может раздуть $\sigma$ . Для данных с тяжёлыми хвостами также приводите медианное абсолютное отклонение (MAD) для устойчивости.
Применение 68-95-99,7 к ненормальным данным. См. выше.

Попробуйте сами

Введите любой набор данных в наш бесплатный калькулятор стандартного отклонения — выберите совокупность или выборку, посмотрите пошаговое вычисление и сверьтесь с этим руководством.

Связанные материалы:

Понять стандартное отклонение без слёз