Der Gradient von $f(x_1, \ldots, x_n)$ ist der Vektor aller partiellen Ableitungen: $\nabla f = (\partial f/\partial x_1, \ldots, \partial f/\partial x_n)$ .

Geometrische Deutung: An jedem Punkt zeigt $\nabla f$ in die Richtung des steilsten Anstiegs, wobei sein Betrag der Änderungsrate in dieser Richtung entspricht.

Um lokale Maxima/Minima zu finden, setzt man $\nabla f = \vec{0}$ und prüft die Bedingungen zweiter Ordnung. Zum Minimieren (z. B. einer ML-Verlustfunktion) bewegt man sich in Richtung $-\nabla f$ — das ist der Gradientenabstieg, das Rückgrat des modernen maschinellen Lernens. Varianten (Momentum, Adam, RMSprop) bauen alle auf dieser Idee auf.

Der Gradient steht senkrecht auf den Niveaulinien der Funktion. Die Richtungsableitung in Richtung $\vec{u}$ (Einheitsvektor) ist $\nabla f \cdot \vec{u}$ .

Gradient

Der Gradient einer mehrdimensionalen Funktion f(x,y,...) ist der Vektor der partiellen Ableitungen. Er zeigt in die Richtung des steilsten Anstiegs und bildet die Grundlage des Gradientenabstiegs.