Il gradiente di è il vettore di tutte le derivate parziali: .
Interpretazione geometrica: in qualsiasi punto, punta nella direzione di massima crescita, con modulo pari al tasso di variazione in quella direzione.
Per trovare massimi/minimi locali, si pone e si verificano le condizioni del secondo ordine. Per minimizzare (per es. una funzione di perdita nel machine learning), ci si muove nella direzione — questa è la discesa del gradiente, la spina dorsale del machine learning moderno. Le sue varianti (momentum, Adam, RMSprop) si basano tutte su questa idea.
Il gradiente è perpendicolare alle curve di livello della funzione. La derivata direzionale nella direzione (vettore unitario) è .