calculus

梯度

多變數函數 f(x,y,...) 的梯度是由各偏導數組成的向量。它指向函數上升最陡的方向,是梯度下降法的基礎。

f(x1,,xn)f(x_1, \ldots, x_n)梯度是由所有偏導數組成的向量:f=(f/x1,,f/xn)\nabla f = (\partial f/\partial x_1, \ldots, \partial f/\partial x_n)

幾何意義:在任意一點,f\nabla f 指向上升最陡的方向,其大小等於沿該方向的變化率。

要找出局部極大/極小值,令 f=0\nabla f = \vec{0} 並檢查二階條件。要做最小化(例如機器學習的損失函數),則沿 f-\nabla f 方向前進——這就是梯度下降法,是現代機器學習的骨幹。各種變體(動量法、Adam、RMSprop)都建立在這個想法之上。

梯度垂直於函數的等值線。沿方向 u\vec{u}(單位向量)的方向導數為 fu\nabla f \cdot \vec{u}