calculus

Градиент

Градиент функции нескольких переменных f(x,y,...) — это вектор частных производных. Он указывает в направлении наискорейшего возрастания и является основой градиентного спуска.

Градиент функции f(x1,,xn)f(x_1, \ldots, x_n) — это вектор всех частных производных: f=(f/x1,,f/xn)\nabla f = (\partial f/\partial x_1, \ldots, \partial f/\partial x_n).

Геометрическая интерпретация: в любой точке f\nabla f указывает в направлении наискорейшего возрастания, а его модуль равен скорости изменения в этом направлении.

Чтобы найти локальные максимумы/минимумы, полагают f=0\nabla f = \vec{0} и проверяют условия второго порядка. Чтобы минимизировать (например, функцию потерь в машинном обучении), движутся в направлении f-\nabla f — это градиентный спуск, становой хребет современного машинного обучения. Все его варианты (моментум, Adam, RMSprop) строятся на этой идее.

Градиент перпендикулярен линиям уровня функции. Производная по направлению u\vec{u} (единичный вектор) равна fu\nabla f \cdot \vec{u}.