Le gradient de est le vecteur de toutes les dérivées partielles : .
Interprétation géométrique : en tout point, pointe dans la direction de la plus forte pente ascendante, sa norme étant égale au taux de variation dans cette direction.
Pour trouver les maxima/minima locaux, on pose et on vérifie les conditions du second ordre. Pour minimiser (p. ex. une fonction de perte en apprentissage automatique), on se déplace dans la direction : c'est la descente de gradient, l'épine dorsale de l'apprentissage automatique moderne. Ses variantes (momentum, Adam, RMSprop) reposent toutes sur cette idée.
Le gradient est perpendiculaire aux courbes de niveau de la fonction. La dérivée directionnelle dans la direction (vecteur unitaire) est .