O gradiente de $f(x_1, \ldots, x_n)$ é o vetor de todas as derivadas parciais: $\nabla f = (\partial f/\partial x_1, \ldots, \partial f/\partial x_n)$ .

Interpretação geométrica: em qualquer ponto, $\nabla f$ aponta na direção de maior crescimento, com magnitude igual à taxa de variação nessa direção.

Para encontrar máximos/mínimos locais, iguala-se $\nabla f = \vec{0}$ e verificam-se as condições de segunda ordem. Para minimizar (p. ex. a função de perda em aprendizado de máquina), caminha-se na direção $-\nabla f$ — isto é o gradiente descendente, a espinha dorsal do aprendizado de máquina moderno. Suas variantes (momentum, Adam, RMSprop) baseiam-se todas nessa ideia.

O gradiente é perpendicular às curvas de nível da função. A derivada direcional na direção $\vec{u}$ (vetor unitário) é $\nabla f \cdot \vec{u}$ .

Gradiente

O gradiente de uma função multivariável f(x,y,...) é o vetor das derivadas parciais. Ele aponta na direção de maior crescimento e é a base do método do gradiente descendente.