calculus

Gradiente

Il gradiente di una funzione a più variabili f(x,y,...) è il vettore delle derivate parziali. Punta nella direzione di massima crescita ed è il fondamento della discesa del gradiente.

Il gradiente di f(x1,,xn)f(x_1, \ldots, x_n) è il vettore di tutte le derivate parziali: f=(f/x1,,f/xn)\nabla f = (\partial f/\partial x_1, \ldots, \partial f/\partial x_n).

Interpretazione geometrica: in qualsiasi punto, f\nabla f punta nella direzione di massima crescita, con modulo pari al tasso di variazione in quella direzione.

Per trovare massimi/minimi locali, si pone f=0\nabla f = \vec{0} e si verificano le condizioni del secondo ordine. Per minimizzare (per es. una funzione di perdita nel machine learning), ci si muove nella direzione f-\nabla f — questa è la discesa del gradiente, la spina dorsale del machine learning moderno. Le sue varianti (momentum, Adam, RMSprop) si basano tutte su questa idea.

Il gradiente è perpendicolare alle curve di livello della funzione. La derivata direzionale nella direzione u\vec{u} (vettore unitario) è fu\nabla f \cdot \vec{u}.