La regresión lineal encuentra la recta $y = mx + b$ que mejor se ajusta a un conjunto de puntos de datos $(x, y)$ . "Mejor" se define mediante el criterio de mínimos cuadrados: minimizar la suma de las distancias verticales al cuadrado entre la recta y los puntos.

La pendiente y la ordenada al origen tienen soluciones de forma cerrada:

$m = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}$

El coeficiente de determinación $R^2$ mide la calidad del ajuste (entre 0 y 1; cuanto más cerca de 1, mejor el ajuste).

La regresión lineal es el modelo predictivo más simple y el fundamento de métodos más sofisticados:

La regresión múltiple utiliza varias variables de entrada.
La regresión logística adapta la idea para resultados binarios.
Ridge / Lasso añaden regularización.
Los "modelos lineales" del aprendizaje automático moderno son descendientes directos.

A pesar de su simplicidad, la regresión lineal sigue siendo muy utilizada en finanzas (CAPM), epidemiología, economía y como línea base frente a la cual los modelos más sofisticados deben justificar su complejidad.

Regresión lineal

La regresión lineal ajusta una recta a los datos: y = mx + b. La recta minimiza la suma de las distancias verticales al cuadrado a los puntos (mínimos cuadrados).