O gradiente de é o vetor de todas as derivadas parciais: .
Interpretação geométrica: em qualquer ponto, aponta na direção de maior crescimento, com magnitude igual à taxa de variação nessa direção.
Para encontrar máximos/mínimos locais, iguala-se e verificam-se as condições de segunda ordem. Para minimizar (p. ex. a função de perda em aprendizado de máquina), caminha-se na direção — isto é o gradiente descendente, a espinha dorsal do aprendizado de máquina moderno. Suas variantes (momentum, Adam, RMSprop) baseiam-se todas nessa ideia.
O gradiente é perpendicular às curvas de nível da função. A derivada direcional na direção (vetor unitário) é .