Проверка гипотез — рабочая лошадка статистического вывода, применяемая повсюду: от клинических испытаний до A/B-тестов на сайтах. И всё же это самая неправильно понимаемая тема в статистике. Это руководство один раз — внятно — проходит весь конвейер, чтобы вы поняли, что на самом деле означает p-значение.
Пять шагов
- Сформулируйте и : нулевую гипотезу (статус-кво) и альтернативную (утверждение, которое вы хотите подтвердить).
- Выберите уровень значимости : обычно 0,05 или 0,01.
- Вычислите статистику критерия по вашим данным (, , и т. д.).
- Найдите p-значение: вероятность увидеть данные настолько экстремальные, если бы была верна.
- Примите решение: если , отвергаем ; иначе не можем отвергнуть.
Замечание: «не можем отвергнуть» ≠ «принимаем ». У вас просто недостаточно доказательств против неё.
Одновыборочный z-критерий (разобранный пример)
Завод утверждает, что его лампочки служат в среднем 1000 часов (). Вы тестируете 25 лампочек и измеряете . Опровергается ли утверждение при ?
- , .
- , двусторонний.
- Статистика критерия: .
- p-значение: .
- Поскольку , отвергаем . Среднее время службы значимо отличается от 1000 часов.
Выбор подходящего критерия
| Ситуация | Критерий |
|---|---|
| Одно среднее, известна | одновыборочный z-критерий |
| Одно среднее, неизвестна, n мало | одновыборочный t-критерий |
| Два средних, независимые выборки | двухвыборочный t-критерий |
| Два связанных средних | парный t-критерий |
| Доля(и) | z-критерий для доли |
| Согласие / таблица сопряжённости | хи-квадрат |
Ошибка I рода vs ошибка II рода
- I рода: отвергнуть верную . Вероятность = .
- II рода: не отвергнуть ложную . Вероятность = .
- Мощность = : вероятность правильно обнаружить реальный эффект.
Эти три величины движутся вместе: уменьшение повышает при фиксированном объёме выборки; увеличение объёма выборки снижает оба.
Частые ошибки
- «p-значение = вероятность того, что верна» — ложь. p-значение — это , а не .
- Множественные сравнения — проведение 20 тестов при гарантирует ≈1 ложноположительный результат в среднем. Используйте поправку.
- Смешение значимости с важностью — крошечный эффект при огромном может быть высоко значимым, но практически несущественным.
Попробуйте с ИИ-решателем проверки гипотез
Используйте решатель проверки гипотез, чтобы ввести свои данные и получить статистику критерия, p-значение и решение.
Связанные материалы:
- Калькулятор z-оценки — строительный блок любого z-критерия
- Калькулятор стандартного отклонения — входной показатель изменчивости
- Калькулятор нормального распределения — то, что предполагают z-критерии