statistics

Regresión lineal

La regresión lineal ajusta una recta a los datos: y = mx + b. La recta minimiza la suma de las distancias verticales al cuadrado a los puntos (mínimos cuadrados).

La regresión lineal encuentra la recta y=mx+by = mx + b que mejor se ajusta a un conjunto de puntos de datos (x,y)(x, y). "Mejor" se define mediante el criterio de mínimos cuadrados: minimizar la suma de las distancias verticales al cuadrado entre la recta y los puntos.

La pendiente y la ordenada al origen tienen soluciones de forma cerrada:

m=nxyxynx2(x)2,b=yˉmxˉm = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}

El coeficiente de determinación R2R^2 mide la calidad del ajuste (entre 0 y 1; cuanto más cerca de 1, mejor el ajuste).

La regresión lineal es el modelo predictivo más simple y el fundamento de métodos más sofisticados:

  • La regresión múltiple utiliza varias variables de entrada.
  • La regresión logística adapta la idea para resultados binarios.
  • Ridge / Lasso añaden regularización.
  • Los "modelos lineales" del aprendizaje automático moderno son descendientes directos.

A pesar de su simplicidad, la regresión lineal sigue siendo muy utilizada en finanzas (CAPM), epidemiología, economía y como línea base frente a la cual los modelos más sofisticados deben justificar su complejidad.