statistics

線性迴歸

線性迴歸對資料配適一條直線:y = mx + b。這條直線使各點到直線之鉛直距離的平方和最小(最小平方法)。

線性迴歸尋找最能配適一組 (x,y)(x, y) 資料點的直線 y=mx+by = mx + b。「最佳」由最小平方準則定義:使直線與各點之間鉛直距離的平方和最小。

斜率與截距具有封閉形式的解:

m=nxyxynx2(x)2,b=yˉmxˉm = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}

決定係數 R2R^2 衡量配適品質(介於 0 與 1 之間;越接近 1 表示配適越好)。

線性迴歸是最簡單的預測模型,也是更精密方法的基礎:

  • 多元迴歸使用多個輸入變數。
  • 邏輯斯迴歸將此概念套用於二元結果。
  • 嶺迴歸/套索迴歸加入正則化。
  • 現代機器學習的「線性模型」是其直系後裔。

儘管簡單,線性迴歸至今仍廣泛用於金融(CAPM)、流行病學、經濟學,並作為更花俏的模型必須證明其複雜度合理性的基準線。