f(x1,…,xn)f(x_1, \ldots, x_n)f(x1,…,xn) 的梯度是由所有偏导数组成的向量:∇f=(∂f/∂x1,…,∂f/∂xn)\nabla f = (\partial f/\partial x_1, \ldots, \partial f/\partial x_n)∇f=(∂f/∂x1,…,∂f/∂xn)。 几何意义:在任意一点,∇f\nabla f∇f 指向上升最陡的方向,其大小等于沿该方向的变化率。 要找出局部极大/极小值,令 ∇f=0⃗\nabla f = \vec{0}∇f=0 并检查二阶条件。要做最小化(例如机器学习的损失函数),则沿 −∇f-\nabla f−∇f 方向前进——这就是梯度下降法,是现代机器学习的骨干。各种变体(动量法、Adam、RMSprop)都建立在这个想法之上。 梯度垂直于函数的等值线。沿方向 u⃗\vec{u}u(单位向量)的方向导数为 ∇f⋅u⃗\nabla f \cdot \vec{u}∇f⋅u。