Le gradient de $f(x_1, \ldots, x_n)$ est le vecteur de toutes les dérivées partielles : $\nabla f = (\partial f/\partial x_1, \ldots, \partial f/\partial x_n)$ .

Interprétation géométrique : en tout point, $\nabla f$ pointe dans la direction de la plus forte pente ascendante, sa norme étant égale au taux de variation dans cette direction.

Pour trouver les maxima/minima locaux, on pose $\nabla f = \vec{0}$ et on vérifie les conditions du second ordre. Pour minimiser (p. ex. une fonction de perte en apprentissage automatique), on se déplace dans la direction $-\nabla f$ : c'est la descente de gradient, l'épine dorsale de l'apprentissage automatique moderne. Ses variantes (momentum, Adam, RMSprop) reposent toutes sur cette idée.

Le gradient est perpendiculaire aux courbes de niveau de la fonction. La dérivée directionnelle dans la direction $\vec{u}$ (vecteur unitaire) est $\nabla f \cdot \vec{u}$ .

Gradient

Le gradient d'une fonction à plusieurs variables f(x,y,...) est le vecteur des dérivées partielles. Il pointe dans la direction de la plus forte pente ascendante et constitue le fondement de la descente de gradient.