Z 分数(标准分数)是某个数值与平均数的距离,以标准差为单位来表示:
(样本数据则改用 与 )。
Z 分数为 表示「在平均数之上两个标准差」; 表示「在平均数之下 1.5 个标准差」。
Z 分数让你能够:
- 比较来自不同分布的数值——在测验 A()考 80 分的学生(z=2)比在测验 B(,z=0.5)考 80 分更为出色。
- 在标准正态分布表中查找概率——P() ≈ 0.975,这是 95% 置信区间的基础。
- 识别离群值——按惯例,在近似正态的数据中 即标示出一个不寻常的观测值。
标准化(转换为 z 分数)也是机器学习中一个基本的预处理步骤:将输入缩放到平均数 0、标准差 1,有助于梯度下降收敛,并可避免单位较大的特征(例如以美元计的收入相对于以年计的年龄)主宰以距离为基础的模型。