statistics

线性回归

线性回归对数据拟合一条直线:y = mx + b。这条直线使各点到直线之竖直距离的平方和最小(最小二乘法)。

线性回归寻找最能拟合一组 (x,y)(x, y) 数据点的直线 y=mx+by = mx + b。“最佳”由最小二乘准则定义:使直线与各点之间竖直距离的平方和最小。

斜率与截距具有封闭形式的解:

m=nxyxynx2(x)2,b=yˉmxˉm = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}

决定系数 R2R^2 衡量拟合优度(介于 0 与 1 之间;越接近 1 表示拟合越好)。

线性回归是最简单的预测模型,也是更精密方法的基础:

  • 多元回归使用多个输入变量。
  • 逻辑回归将此概念套用于二元结果。
  • 岭回归/套索回归加入正则化。
  • 现代机器学习的“线性模型”是其直系后裔。

尽管简单,线性回归至今仍广泛用于金融(CAPM)、流行病学、经济学,并作为更花哨的模型必须证明其复杂度合理性的基准线。