calculus

Gradiente

El gradiente de una función multivariable f(x,y,...) es el vector de derivadas parciales. Apunta en la dirección de máximo ascenso y es la base del descenso de gradiente.

El gradiente de f(x1,,xn)f(x_1, \ldots, x_n) es el vector de todas las derivadas parciales: f=(f/x1,,f/xn)\nabla f = (\partial f/\partial x_1, \ldots, \partial f/\partial x_n).

Interpretación geométrica: en cualquier punto, f\nabla f apunta en la dirección de máximo ascenso, con magnitud igual a la tasa de cambio en esa dirección.

Para hallar máximos/mínimos locales, se iguala f=0\nabla f = \vec{0} y se comprueban las condiciones de segundo orden. Para minimizar (p. ej. la función de pérdida en aprendizaje automático), se avanza en la dirección f-\nabla f: esto es el descenso de gradiente, la columna vertebral del aprendizaje automático moderno. Sus variantes (momentum, Adam, RMSprop) se basan todas en esta idea.

El gradiente es perpendicular a las curvas de nivel de la función. La derivada direccional en la dirección u\vec{u} (vector unitario) es fu\nabla f \cdot \vec{u}.