statistics

Дисперсия

Дисперсия измеряет разброс набора данных вокруг его среднего. Это среднее квадратов отклонений. Стандартное отклонение — это квадратный корень из дисперсии.

Дисперсия измеряет, насколько значения набора данных разбросаны относительно среднего. Для генеральной совокупности из NN значений x1,,xNx_1, \ldots, x_N со средним μ\mu:

σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2

Для выборки из nn значений с выборочным средним xˉ\bar{x} делят на n1n - 1, а не на nn (поправка Бесселя, несмещённая оценка).

Малая дисперсия означает, что значения сгруппированы около среднего; большая дисперсия означает, что они разбросаны. Дисперсия выражается в квадратах единиц исходных данных (кг², если данные в кг) — именно поэтому обычно сообщают стандартное отклонение σ=σ2\sigma = \sqrt{\sigma^2}, которое имеет те же единицы, что и данные.

Дисперсия лежит в основе всей статистики выводов: доверительные интервалы, проверка гипотез и регрессия — всё зависит от оценки дисперсии. Компромисс смещения и дисперсии в машинном обучении назван в её честь.