calculus

梯度

多变量函数 f(x,y,...) 的梯度是由各偏导数组成的向量。它指向函数上升最陡的方向,是梯度下降法的基础。

f(x1,,xn)f(x_1, \ldots, x_n)梯度是由所有偏导数组成的向量:f=(f/x1,,f/xn)\nabla f = (\partial f/\partial x_1, \ldots, \partial f/\partial x_n)

几何意义:在任意一点,f\nabla f 指向上升最陡的方向,其大小等于沿该方向的变化率。

要找出局部极大/极小值,令 f=0\nabla f = \vec{0} 并检查二阶条件。要做最小化(例如机器学习的损失函数),则沿 f-\nabla f 方向前进——这就是梯度下降法,是现代机器学习的骨干。各种变体(动量法、Adam、RMSprop)都建立在这个想法之上。

梯度垂直于函数的等值线。沿方向 u\vec{u}(单位向量)的方向导数为 fu\nabla f \cdot \vec{u}