【AI思想启蒙12】深度学习第2篇-梯度下降法和矩阵求导术
Softmax偏导;交叉熵+Softmax梯度统一,即“预测概率-真实标签”误差乘输入;最后附矩阵/向量求导常用公式表。完整推导清晰,适合反向传播实现参考
1.Softmax函数求导
Softmax 函数将这个向量转化为概率向量 \(\mathbf{y} = [y_1, y_2, \dots, y_N]^T\),其中每个元素 \(y_i\) 表示输入属于第 \(i\) 个类别的概率:
\[y_i = P(Y=i|\mathbf{d}) = \frac{e^{d_i}}{\sum_{j=1}^{N} e^{d_j}}\]
在神经网络的反...