La regresión lineal encuentra la recta que mejor se ajusta a un conjunto de puntos de datos . "Mejor" se define mediante el criterio de mínimos cuadrados: minimizar la suma de las distancias verticales al cuadrado entre la recta y los puntos.
La pendiente y la ordenada al origen tienen soluciones de forma cerrada:
El coeficiente de determinación mide la calidad del ajuste (entre 0 y 1; cuanto más cerca de 1, mejor el ajuste).
La regresión lineal es el modelo predictivo más simple y el fundamento de métodos más sofisticados:
- La regresión múltiple utiliza varias variables de entrada.
- La regresión logística adapta la idea para resultados binarios.
- Ridge / Lasso añaden regularización.
- Los "modelos lineales" del aprendizaje automático moderno son descendientes directos.
A pesar de su simplicidad, la regresión lineal sigue siendo muy utilizada en finanzas (CAPM), epidemiología, economía y como línea base frente a la cual los modelos más sofisticados deben justificar su complejidad.