$f(x_1, \ldots, x_n)$ 的梯度是由所有偏導數組成的向量： $\nabla f = (\partial f/\partial x_1, \ldots, \partial f/\partial x_n)$ 。

幾何意義：在任意一點， $\nabla f$ 指向上升最陡的方向，其大小等於沿該方向的變化率。

要找出局部極大／極小值，令 $\nabla f = \vec{0}$ 並檢查二階條件。要做最小化（例如機器學習的損失函數），則沿 $-\nabla f$ 方向前進——這就是梯度下降法，是現代機器學習的骨幹。各種變體（動量法、Adam、RMSprop）都建立在這個想法之上。

梯度垂直於函數的等值線。沿方向 $\vec{u}$ （單位向量）的方向導數為 $\nabla f \cdot \vec{u}$ 。

梯度