吴恩达课程系列

2-5 用梯度下降(Gradient Descent)算法最小化任意代价函数J

梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数\(J(\theta_0, \theta_1)\)的最小值。

不同的起点得到了不同的局部最小解（或者说“局部最优解”）。—–这也是梯度下降法的一个特点。

梯度下降算法的数学原理

具体是如何更新参数 \(\theta_0, \theta_1\)呢？

\(\alpha\)是学习率，控制每次更新的步长(可以理解为当想要下山快一点，迈的步子大一点的时候，就可以让\(\alpha\)大一点)

注意： \(\theta_0, \theta_1\)是同步更新的，上图右下侧的方法不是真正意义上的梯度下降（虽然也说不准会有局部最优解，但不是介绍的真正的梯度下降）

梯度下降的步骤不断重复，直到损失函数收敛，找到最优的参数。

损失函数（Loss Function）收敛指的是随着迭代次数的增加，损失函数的值逐渐减少，并趋近于一个稳定的最小值，不再有明显的下降。这意味着梯度下降算法已经找到（或接近）了一个最优解，进一步的更新不会显著改变参数或提高模型的性能。

损失函数收敛意味着在多次迭代后，损失函数的变化越来越小，最终趋于稳定（就是那个差的平方求和几乎不变了，或者说求偏导的结果几乎等于0）

2-5 梯度下降 Gradient Descent

梯度下降的数学原理

2-5 用梯度下降(Gradient Descent)算法最小化任意代价函数J

梯度下降算法的数学原理

CATALOG

FEATURED TAGS

FRIENDS