statistics

四分位数

四分位数将数据集分成四等份。Q1(第 25 百分位数)、Q2(中位数,第 50 百分位数)、Q3(第 75 百分位数)。四分位距 Q3−Q1 是稳健的离散度量。

四分位数将排序后的数据集分成四个大小相等的部分:

  • Q1(第 25 百分位数):四分之一的数据低于它。
  • Q2(中位数,第 50 百分位数):一半的数据低于它。
  • Q3(第 75 百分位数):四分之三的数据低于它。

四分位距(IQR) =Q3Q1= Q3 - Q1,是一种稳健的离散度量:

  • 对离群值不敏感(不同于 σ\sigma)。
  • 涵盖数据的“中间 50%”。

五数概括min,Q1,Q2,Q3,max\min, Q1, Q2, Q3, \max)是箱线图的基础:箱体由 Q1 到 Q3 并标出中位数线,须线延伸至 1.5IQR1.5 \cdot IQR 范围内最极端的值,超出者标记为离群值。

四分位数与所有百分位数一样属于非参数方法——不对分布形状作任何假设,因此对偏态或未知分布而言,比均值/标准差更为稳妥。