Il gradiente di $f(x_1, \ldots, x_n)$ è il vettore di tutte le derivate parziali: $\nabla f = (\partial f/\partial x_1, \ldots, \partial f/\partial x_n)$ .

Interpretazione geometrica: in qualsiasi punto, $\nabla f$ punta nella direzione di massima crescita, con modulo pari al tasso di variazione in quella direzione.

Per trovare massimi/minimi locali, si pone $\nabla f = \vec{0}$ e si verificano le condizioni del secondo ordine. Per minimizzare (per es. una funzione di perdita nel machine learning), ci si muove nella direzione $-\nabla f$ — questa è la discesa del gradiente, la spina dorsale del machine learning moderno. Le sue varianti (momentum, Adam, RMSprop) si basano tutte su questa idea.

Il gradiente è perpendicolare alle curve di livello della funzione. La derivata direzionale nella direzione $\vec{u}$ (vettore unitario) è $\nabla f \cdot \vec{u}$ .

Gradiente

Il gradiente di una funzione a più variabili f(x,y,...) è il vettore delle derivate parziali. Punta nella direzione di massima crescita ed è il fondamento della discesa del gradiente.