f(x1,…,xn)f(x_1, \ldots, x_n)f(x1,…,xn) 的梯度是由所有偏導數組成的向量:∇f=(∂f/∂x1,…,∂f/∂xn)\nabla f = (\partial f/\partial x_1, \ldots, \partial f/\partial x_n)∇f=(∂f/∂x1,…,∂f/∂xn)。 幾何意義:在任意一點,∇f\nabla f∇f 指向上升最陡的方向,其大小等於沿該方向的變化率。 要找出局部極大/極小值,令 ∇f=0⃗\nabla f = \vec{0}∇f=0 並檢查二階條件。要做最小化(例如機器學習的損失函數),則沿 −∇f-\nabla f−∇f 方向前進——這就是梯度下降法,是現代機器學習的骨幹。各種變體(動量法、Adam、RMSprop)都建立在這個想法之上。 梯度垂直於函數的等值線。沿方向 u⃗\vec{u}u(單位向量)的方向導數為 ∇f⋅u⃗\nabla f \cdot \vec{u}∇f⋅u。