El gradiente de $f(x_1, \ldots, x_n)$ es el vector de todas las derivadas parciales: $\nabla f = (\partial f/\partial x_1, \ldots, \partial f/\partial x_n)$ .

Interpretación geométrica: en cualquier punto, $\nabla f$ apunta en la dirección de máximo ascenso, con magnitud igual a la tasa de cambio en esa dirección.

Para hallar máximos/mínimos locales, se iguala $\nabla f = \vec{0}$ y se comprueban las condiciones de segundo orden. Para minimizar (p. ej. la función de pérdida en aprendizaje automático), se avanza en la dirección $-\nabla f$ : esto es el descenso de gradiente, la columna vertebral del aprendizaje automático moderno. Sus variantes (momentum, Adam, RMSprop) se basan todas en esta idea.

El gradiente es perpendicular a las curvas de nivel de la función. La derivada direccional en la dirección $\vec{u}$ (vector unitario) es $\nabla f \cdot \vec{u}$ .

Gradiente

El gradiente de una función multivariable f(x,y,...) es el vector de derivadas parciales. Apunta en la dirección de máximo ascenso y es la base del descenso de gradiente.