2-5 梯度下降 Gradient Descent

梯度下降的数学原理

Posted by Hilda on March 2, 2025

吴恩达课程系列

1-1 欢迎参加《机器学习》课程【机器学习简介/例子】

1-2 什么是机器学习【机器学习的2个定义和分类】

1-3监督学习【监督学习的定义,监督学习的分类(回归与分类)】

1-4无监督学习【无监督学习的定义,无监督学习问题的分类(聚类/信号分离/降维)】

2-1模型描述【如何描述一个模型(用一些符号),单变量线性回归是什么?】

2-2~2-4代价函数【代价函数的数学定义、代价函数的直观理解】

2-5 用梯度下降(Gradient Descent)算法最小化任意代价函数J

image-20250302141137310

梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数\(J(\theta_0, \theta_1)\)的最小值。

image-20250302141432078

image-20250302141453264

不同的起点得到了不同的局部最小解(或者说“局部最优解”)。—–这也是梯度下降法的一个特点。

梯度下降算法的数学原理

具体是如何更新参数 \(\theta_0, \theta_1\)呢?

image-20250302153654327

\(\alpha\)是学习率,控制每次更新的步长(可以理解为当想要下山快一点,迈的步子大一点的时候,就可以让\(\alpha\)大一点)

注意: \(\theta_0, \theta_1\)是同步更新的,上图右下侧的方法不是真正意义上的梯度下降(虽然也说不准会有局部最优解,但不是介绍的真正的梯度下降)

梯度下降的步骤不断重复,直到损失函数收敛,找到最优的参数。

损失函数(Loss Function)收敛指的是随着迭代次数的增加,损失函数的值逐渐减少,并趋近于一个稳定的最小值,不再有明显的下降。这意味着梯度下降算法已经找到(或接近)了一个最优解,进一步的更新不会显著改变参数或提高模型的性能。

损失函数收敛意味着在多次迭代后,损失函数的变化越来越小,最终趋于稳定(就是那个差的平方求和几乎不变了,或者说求偏导的结果几乎等于0)