Die lineare Regression findet die Gerade $y = mx + b$ , die am besten zu einer Menge von $(x, y)$ -Datenpunkten passt. "Am besten" wird durch das Kriterium der kleinsten Quadrate definiert: die Summe der quadrierten senkrechten Abstände zwischen der Geraden und den Punkten zu minimieren.

Steigung und Achsenabschnitt haben geschlossene Lösungen:

$m = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}$

Das Bestimmtheitsmaß $R^2$ misst die Anpassungsgüte (zwischen 0 und 1; näher an 1 = bessere Anpassung).

Die lineare Regression ist das einfachste Vorhersagemodell und die Grundlage anspruchsvollerer Verfahren:

Die multiple Regression verwendet mehrere Eingaben.
Die logistische Regression überträgt die Idee auf binäre Ergebnisse.
Ridge / Lasso fügen Regularisierung hinzu.
Die "linearen Modelle" des modernen maschinellen Lernens sind direkte Nachfahren.

Trotz ihrer Einfachheit wird die lineare Regression nach wie vor stark in der Finanzwelt (CAPM), Epidemiologie und Volkswirtschaft eingesetzt und als Referenz, gegenüber der ausgefeiltere Modelle ihre Komplexität rechtfertigen müssen.

Lineare Regression

Die lineare Regression passt eine Gerade an Daten an: y = mx + b. Die Gerade minimiert die Summe der quadrierten senkrechten Abstände zu den Punkten (Methode der kleinsten Quadrate).