El gradiente de es el vector de todas las derivadas parciales: .
Interpretación geométrica: en cualquier punto, apunta en la dirección de máximo ascenso, con magnitud igual a la tasa de cambio en esa dirección.
Para hallar máximos/mínimos locales, se iguala y se comprueban las condiciones de segundo orden. Para minimizar (p. ej. la función de pérdida en aprendizaje automático), se avanza en la dirección : esto es el descenso de gradiente, la columna vertebral del aprendizaje automático moderno. Sus variantes (momentum, Adam, RMSprop) se basan todas en esta idea.
El gradiente es perpendicular a las curvas de nivel de la función. La derivada direccional en la dirección (vector unitario) es .