statistics

선형회귀

선형회귀는 데이터에 직선 y = mx + b를 적합시킨다. 이 직선은 각 점까지의 수직 거리의 제곱합을 최소로 한다(최소제곱법).

선형회귀(x,y)(x, y) 데이터 점들의 집합에 가장 잘 맞는 직선 y=mx+by = mx + b를 찾는다. "가장 잘"은 최소제곱 기준으로 정의되며, 직선과 점들 사이 수직 거리의 제곱합을 최소화한다.

기울기와 절편은 닫힌 형태의 해를 가진다:

m=nxyxynx2(x)2,b=yˉmxˉm = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}

결정계수 R2R^2는 적합의 질을 측정한다(0과 1 사이이며, 1에 가까울수록 적합이 좋다).

선형회귀는 가장 단순한 예측 모형이자 더 정교한 방법들의 토대이다:

  • 다중회귀는 여러 개의 입력을 사용한다.
  • 로지스틱 회귀는 이 아이디어를 이진 결과에 적용한다.
  • 릿지 / 라쏘는 정규화를 더한다.
  • 현대 기계 학습의 "선형 모형"은 그 직계 후손이다.

단순함에도 불구하고 선형회귀는 금융(CAPM), 역학, 경제학에서 널리 쓰이며, 더 화려한 모형이 그 복잡성을 정당화해야 하는 기준선(베이스라인)으로도 사용된다.