Проверка статистических гипотез — это схема использования выборочных данных для выбора между двумя конкурирующими утверждениями о генеральной совокупности:

Нулевая гипотеза $H_0$ : утверждение по умолчанию / «ничего интересного» (например, монета честная, лекарство не действует).
Альтернативная гипотеза $H_a$ : то, что мы подозреваем / хотим продемонстрировать.

Процедура:

Сформулировать $H_0$ и $H_a$ .
Выбрать уровень значимости $\alpha$ (обычно 0,05) — вероятность ошибочного отклонения (ошибка I рода).
Вычислить статистику критерия по данным (z-оценка, t-статистика, хи-квадрат, F-отношение).
Вычислить p-значение — вероятность при $H_0$ получить данные не менее экстремальные.
Принять решение: если $p < \alpha$ , отвергнуть $H_0$ ; иначе не отвергать.

Два типа ошибок:

Ошибка I рода: отклонение истинной $H_0$ (вероятность $\alpha$ ).
Ошибка II рода: неотклонение ложной $H_0$ (вероятность $\beta$ ); $1 - \beta$ — это мощность критерия.

Распространённое смешение понятий: «не отвергнуть» ≠ «принять $H_0$ ». Отсутствие доказательств не есть доказательство отсутствия — малые объёмы выборки могут скрывать реальные эффекты.

Эта схема лежит в основе клинических испытаний, A/B-тестов, контроля качества и большинства публикуемых утверждений о «статистической значимости».