Cheat Sheet

统计学 Formulas

学生从入门统计到推断分析所需的每一个统计公式:描述性度量、概率规则、正态分布、假设检验和线性回归。每条都附一句话用法说明。配合 AI-Math 的求解器即可代入验证。

描述性统计

均值(总体)

μ=1Ni=1Nxi\mu = \frac{1}{N}\sum_{i=1}^N x_i

总体所有取值的平均。

均值(样本)

xˉ=1ni=1nxi\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i

样本的平均。

方差(总体)

σ2=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum (x_i - \mu)^2

离散程度的平方,除以 N。

方差(样本)

s2=1n1(xixˉ)2s^2 = \frac{1}{n-1}\sum (x_i - \bar{x})^2

贝塞尔校正:除以 n1n-1

标准差

σ=σ2\sigma = \sqrt{\sigma^2}

方差的平方根——与数据单位相同。

极差

R=xmaxxminR = x_{\max} - x_{\min}

最简单的离散度量。

概率法则

加法法则

P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A \cap B)

A 或 B 的概率(容斥原理)。

乘法法则

P(AB)=P(A)P(BA)P(A \cap B) = P(A) \cdot P(B \mid A)

A 且 B 的概率;独立时简化为乘积。

条件概率

P(BA)=P(AB)P(A)P(B \mid A) = \frac{P(A \cap B)}{P(A)}

在 A 发生的条件下 B 的概率。

贝叶斯定理

P(AB)=P(BA)P(A)P(B)P(A \mid B) = \frac{P(B \mid A) P(A)}{P(B)}

反转条件概率——诊断检测、机器学习。

独立性

P(AB)=P(A)P(B)P(A \cap B) = P(A) P(B)

当且仅当 AABB 独立时成立。

计数

排列

P(n,r)=n!(nr)!P(n,r) = \frac{n!}{(n-r)!}

顺序重要:从 nn 个中排 rr 个。

组合

C(n,r)=(nr)=n!r!(nr)!C(n,r) = \binom{n}{r} = \frac{n!}{r!(n-r)!}

顺序无关:从 nn 个中选 rr 个。

离散分布

二项分布 PMF

P(X=k)=(nk)pk(1p)nkP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}

nn 次独立试验中 kk 次成功,单次成功概率为 pp

二项分布均值

μ=np\mu = np

期望的成功次数。

二项分布方差

σ2=np(1p)\sigma^2 = np(1-p)

二项分布的离散程度。

泊松分布 PMF

P(X=k)=λkeλk!P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}

稀有事件计数,平均速率为 λ\lambda

正态分布

概率密度函数

f(x)=1σ2πexp ⁣((xμ)22σ2)f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\!\bigl(-\tfrac{(x-\mu)^2}{2\sigma^2}\bigr)

钟形曲线,均值 μ\mu,标准差 σ\sigma

Z 分数

z=xμσz = \frac{x - \mu}{\sigma}

标准化以便跨分布比较。

标准正态

ZN(0,1)Z \sim N(0, 1)

Z 分数变换之后。

68-95-99.7 法则

P(Xμ<kσ): 0.68, 0.95, 0.997P(|X - \mu| < k\sigma):\ 0.68,\ 0.95,\ 0.997

对于 k=1,2,3k = 1, 2, 3——仅对正态数据有效。

推断统计

均值标准误

SE=snSE = \frac{s}{\sqrt{n}}

作为估计量的 xˉ\bar{x} 的标准差。

置信区间(均值,已知 $\sigma$)

xˉ±zα/2σn\bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}

95% 置信区间时 zα/2=1.96z_{\alpha/2} = 1.96

t 统计量(单样本)

t=xˉμ0s/nt = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}

σ\sigma 未知时检验均值 = μ0\mu_0

卡方统计量

χ2=(OiEi)2Ei\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}

分类数据的拟合优度 / 独立性检验。

线性回归

斜率

b1=(xixˉ)(yiyˉ)(xixˉ)2b_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}

最佳拟合斜率(最小二乘)。

截距

b0=yˉb1xˉb_0 = \bar{y} - b_1 \bar{x}

使回归线经过 (xˉ,yˉ)(\bar{x}, \bar{y})

皮尔逊相关系数

r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}}

线性关系的强度与方向,r[1,1]r \in [-1, 1]

决定系数

R2=r2R^2 = r^2

yy 的方差中由 xx 解释的比例。