What are the steps of a hypothesis test?

(1) State the null hypothesis H₀ and alternative H₁; (2) choose a significance level α (commonly 0.05); (3) collect data and compute the test statistic; (4) calculate the p-value; (5) reject H₀ if p < α, otherwise fail to reject.

What does a p-value mean?

The p-value is the probability of observing a result as extreme as (or more extreme than) the computed statistic, assuming H₀ is true. A small p-value (below α) provides evidence against H₀, but does not prove H₁ is true.

What is the difference between Type I and Type II errors?

A Type I error (false positive) is rejecting H₀ when it is true; its probability equals α. A Type II error (false negative) is failing to reject H₀ when it is false; its probability is β. Statistical power is 1 − β.

AI-Math - 仮説検定をステップバイステップで：H0 から p 値まで

仮説検定は統計的推測の主役であり、臨床試験から Web サイトの A/B テストまであらゆる場面で使われています。しかし同時に、統計学で最も誤解されているトピックでもあります。このガイドでは全体の流れを一度だけ——明確に——たどり、p 値が本当は何を意味するのかを理解できるようにします。

5 つのステップ

$H_0$ と $H_1$ を立てる：帰無仮説（現状）と対立仮説（あなたが支持したい主張）。
有意水準 $\alpha$ を選ぶ：通常は 0.05 または 0.01。
データから検定統計量を計算する（ $z$ 、 $t$ 、 $\chi^2$ など）。
p 値を求める： $H_0$ が真であるとして、これほど極端なデータが得られる確率。
判断する： $p < \alpha$ なら $H_0$ を棄却し、そうでなければ棄却しない。

注意：「棄却しない」≠「 $H_0$ を採択する」。単にそれに反する十分な証拠がないだけです。

一標本 z 検定（例題）

ある工場は電球が平均 1000 時間もつと主張しています（ $\sigma = 50$ ）。あなたは 25 個の電球を検査し、 $\bar x = 980$ を測定しました。 $\alpha = 0.05$ でこの主張は反証されるでしょうか？

$H_0: \mu = 1000$ 、 $H_1: \mu \ne 1000$ 。
$\alpha = 0.05$ 、両側検定。
検定統計量： $z = \frac{\bar x - \mu_0}{\sigma / \sqrt{n}} = \frac{980 - 1000}{50/\sqrt{25}} = \frac{-20}{10} = -2$ 。
p 値： $2 \cdot P(Z < -2) \approx 2 \cdot 0.0228 = 0.0456$ 。
$0.0456 < 0.05$ なので、 $H_0$ を棄却する。平均寿命は 1000 時間と有意に異なります。

適切な検定を選ぶ

状況	検定
1 つの平均、 $\sigma$ 既知	一標本 z 検定
1 つの平均、 $\sigma$ 未知、n が小さい	一標本 t 検定
2 つの平均、独立標本	二標本 t 検定
対応のある 2 つの平均	対応のある t 検定
比率	比率の z 検定
適合度 / 分割表	カイ二乗

第一種の過誤と第二種の過誤

第一種の過誤：真の $H_0$ を棄却すること。確率 = $\alpha$ 。
第二種の過誤：偽の $H_0$ を棄却しないこと。確率 = $\beta$ 。
検出力 = $1 - \beta$ ：実在する効果を正しく検出する確率。

この 3 つは連動して動きます。標本サイズを固定したまま $\alpha$ を小さくすると $\beta$ が大きくなり、標本サイズを大きくすると両方が小さくなります。

よくある間違い

「p 値 = $H_0$ が真である確率」 ——誤りです。p 値は $P(\text{データ} \mid H_0)$ であり、 $P(H_0 \mid \text{データ})$ ではありません。
多重比較 —— $\alpha = 0.05$ で 20 回の検定を行うと、平均して約 1 件の偽陽性が必ず生じます。補正を使いましょう。
有意性と重要性の混同 ——巨大な $n$ を伴う微小な効果は、統計的には非常に有意でも実用上は無関係なことがあります。

AI 仮説検定ソルバーで試す

仮説検定ソルバーにデータを入力すると、検定統計量、p 値、判断結果が得られます。

仮説検定をステップバイステップで：H0 から p 値まで

仮説検定の実践ガイド：H0 と H1 の定義、適切な検定の選択、検定統計量の計算、そして誤用しない p 値の解釈。