[ch02-03] 梯度下降

Posted on 2019-12-232019-12-23 by admin

系列博客，原文在筆者所維護的github上：，
點擊star加星不要吝嗇，星越多筆者越努力。

內容目錄

2.3 梯度下降

2.3.1 從自然現象中理解梯度下降

在大多數文章中，都以“一個人被困在山上，需要迅速下到谷底”來舉例，這個人會“尋找當前所處位置最陡峭的地方向下走”。這個例子中忽略了安全因素，這個人不可能沿着最陡峭的方向走，要考慮坡度。

在自然界中，梯度下降的最好例子，就是泉水下山的過程：

水受重力影響，會在當前位置，沿着最陡峭的方向流動，有時會形成瀑布（梯度下降）；
水流下山的路徑不是唯一的，在同一個地點，有可能有多個位置具有同樣的陡峭程度，而造成了分流（可以得到多個解）；
遇到坑窪地區，有可能形成湖泊，而終止下山過程（不能得到全局最優解，而是局部最優解）。

2.3.2 梯度下降的數學理解

梯度下降的數學公式：

\[\theta_{n+1} = \theta_{n} – \eta \cdot \nabla J(\theta) \tag{1}\]

其中：

\(\theta_{n+1}\)：下一個值；
\(\theta_n\)：當前值；
\(-\)：減號，梯度的反向；
\(\eta\)：學習率或步長，控制每一步走的距離，不要太快以免錯過了最佳景點，不要太慢以免時間太長；
\(\nabla\)：梯度，函數當前位置的最快上升點；
\(J(\theta)\)：函數。

梯度下降的三要素

當前點；
方向；
步長。

為什麼說是“梯度下降”？

“梯度下降”包含了兩層含義：

梯度：函數當前位置的最快上升點；
下降：與導數相反的方向，用數學語言描述就是那個減號。

亦即與上升相反的方向運動，就是下降。

圖2-9 梯度下降的步驟

圖2-9解釋了在函數極值點的兩側做梯度下降的計算過程，梯度下降的目的就是使得x值向極值點逼近。

2.3.3 單變量函數的梯度下降

假設一個單變量函數：

\[J(x) = x ^2\]

我們的目的是找到該函數的最小值，於是計算其微分：

\[J'(x) = 2x\]

假設初始位置為：

\[x_0=1.2\]

假設學習率：

\[\eta = 0.3\]

根據公式(1)，迭代公式：

\[x_{n+1} = x_{n} – \eta \cdot \nabla J(x)= x_{n} – \eta \cdot 2x\tag{1}\]

假設終止條件為J(x)<1e-2，迭代過程是：

x=0.480000, y=0.230400
x=0.192000, y=0.036864
x=0.076800, y=0.005898
x=0.030720, y=0.000944

上面的過程如圖2-10所示。

圖2-10 使用梯度下降法迭代的過程

2.3.4 雙變量的梯度下降

假設一個雙變量函數：

\[J(x,y) = x^2 + \sin^2(y)\]

我們的目的是找到該函數的最小值，於是計算其微分：

\[{\partial{J(x,y)} \over \partial{x}} = 2x\]
\[{\partial{J(x,y)} \over \partial{y}} = 2 \sin y \cos y\]

假設初始位置為：

\[(x_0,y_0)=(3,1)\]

假設學習率：

\[\eta = 0.1\]

根據公式(1)，迭代過程是的計算公式：
\[(x_{n+1},y_{n+1}) = (x_n,y_n) – \eta \cdot \nabla J(x,y)\]
\[ = (x_n,y_n) – \eta \cdot (2x,2 \cdot \sin y \cdot \cos y) \tag{1}\]

根據公式(1)，假設終止條件為\(J(x,y)<1e-2\)，迭代過程如表2-3所示。

表2-3 雙變量梯度下降的迭代過程

迭代次數	x	y	J(x,y)
1	3	1	9.708073
2	2.4	0.909070	6.382415
…	…	…	…
15	0.105553	0.063481	0.015166
16	0.084442	0.050819	0.009711

迭代16次后，J(x,y)的值為0.009711，滿足小於1e-2的條件，停止迭代。

上面的過程如表2-4所示，由於是雙變量，所以需要用三維圖來解釋。請注意看兩張圖中間那條隱隱的黑色線，表示梯度下降的過程，從紅色的高地一直沿着坡度向下走，直到藍色的窪地。

表2-4 在三維空間內的梯度下降過程

觀察角度1	觀察角度2

2.3.5 學習率η的選擇

在公式表達時，學習率被表示為\(\eta\)。在代碼里，我們把學習率定義為learning_rate，或者eta。針對上面的例子，試驗不同的學習率對迭代情況的影響，如表2-5所示。

表2-5 不同學習率對迭代情況的影響

學習率	迭代路線圖	說明
1.0		學習率太大，迭代的情況很糟糕，在一條水平線上跳來跳去，永遠也不能下降。
0.8		學習率大，會有這種左右跳躍的情況發生，這不利於神經網絡的訓練。
0.4		學習率合適，損失值會從單側下降，4步以後基本接近了理想值。
0.1		學習率較小，損失值會從單側下降，但下降速度非常慢，10步了還沒有到達理想狀態。

代碼位置

ch02, Level3, Level4, Level5

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理【其他文章推薦】

※收購3c,收購IPHONE,收購蘋果電腦-詳細收購流程一覽表

※網頁設計公司推薦更多不同的設計風格，搶佔消費者視覺第一線

※廣告預算用在刀口上，網站設計公司幫您達到更多曝光效益

※公開收購3c價格,不怕被賤賣!

※自行創業缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象