Критерий хи-квадрат () — это стандартный инструмент для категориальных данных. Статистика критерия:
где — наблюдаемые частоты, а — ожидаемые при .
Три распространённых варианта:
- Согласие: соответствует ли наблюдаемое распределение теоретическому? (Честна ли игральная кость?). .
- Независимость: независимы ли две категориальные переменные? (Независим ли пол от предпочтений в голосовании?). для таблиц сопряжённости .
- Критерий дисперсии: встречается реже.
Предположение: ожидаемые частоты должны быть достаточно большими (обычно в каждой ячейке). Для малых выборок используйте вместо этого точный критерий Фишера.
Само распределение хи-квадрат — это распределение суммы квадратов стандартных нормальных величин; оно используется для построения критических значений.