吴恩达课程系列
1-3监督学习【监督学习的定义,监督学习的分类(回归与分类)】
1-4无监督学习【无监督学习的定义,无监督学习问题的分类(聚类/信号分离/降维)】
2-1模型描述【如何描述一个模型(用一些符号),单变量线性回归是什么?】
2-2~2-4代价函数【代价函数的数学定义、代价函数的直观理解】
2-5 用梯度下降(Gradient Descent)算法最小化任意代价函数J
梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数\(J(\theta_0, \theta_1)\)的最小值。
不同的起点得到了不同的局部最小解(或者说“局部最优解”)。—–这也是梯度下降法的一个特点。
梯度下降算法的数学原理
具体是如何更新参数 \(\theta_0, \theta_1\)呢?
\(\alpha\)是学习率,控制每次更新的步长(可以理解为当想要下山快一点,迈的步子大一点的时候,就可以让\(\alpha\)大一点)
注意: \(\theta_0, \theta_1\)是同步更新的,上图右下侧的方法不是真正意义上的梯度下降(虽然也说不准会有局部最优解,但不是介绍的真正的梯度下降)
梯度下降的步骤不断重复,直到损失函数收敛,找到最优的参数。
损失函数(Loss Function)收敛指的是随着迭代次数的增加,损失函数的值逐渐减少,并趋近于一个稳定的最小值,不再有明显的下降。这意味着梯度下降算法已经找到(或接近)了一个最优解,进一步的更新不会显著改变参数或提高模型的性能。
损失函数收敛意味着在多次迭代后,损失函数的变化越来越小,最终趋于稳定(就是那个差的平方求和几乎不变了,或者说求偏导的结果几乎等于0)