Hilda

「离开世界之前 一切都是过程」

【AI思想启蒙14】深度学习第4篇-一文吃透神经网络训练的 8 大核心难题

小批量SGD无偏但有噪声,适中batch size平衡精度与效率;小batch噪声助逃尖锐最小值/鞍点;动量抑震荡、加速,Adam自适应+偏差修正最优;BatchNorm稳定分布、允许大学习率,但小batch失效;L2正则防过拟合,L1具有剪枝效果。

1.梯度下降基础问题 回顾梯度下降:在训练神经网络时,我们的目标是最小化整个训练集上的总损失函数 \(\mathcal{L}(W)\): \[\mathcal{L}(W) = \frac{1}{N} \sum_{i=1}^{N} \mathcal{L}_{(i)}(W)\] 其中\(W\) 是所有模型的权重,\(N\) 是训练集中的总样本数。 目标是计算总梯度的平均值: \(\f...

【AI思想启蒙13】深度学习第3篇-度量学习

度量学习通过孪生网络学习嵌入空间,使语义相似的样本距离近、不相似样本距离远。核心是对比损失拉近正样本、推远负样本(带margin)。训练需成对标签,推理仅算距离,支持人脸验证、推荐召回等任务。

度量学习 在许多人工智能应用(如人脸识别、推荐系统和搜索引擎)中,关键的挑战是测量数据点之间的相似性。因此诞生了度量学习和嵌入向量。 度量学习的核心在于学习一种映射,将原始、复杂的输入数据转换到一个新的、低维的特征空间,在这个空间中,距离可以直接反映语义上的相似性。 通过神经网络或其他表示方法,将输入数据 \(x\) 映射到一个特征空间(Feature Space),即嵌入(E...

【AI思想启蒙12】深度学习第2篇-梯度下降法和矩阵求导术

Softmax偏导;交叉熵+Softmax梯度统一,即“预测概率-真实标签”误差乘输入;最后附矩阵/向量求导常用公式表。完整推导清晰,适合反向传播实现参考

1.Softmax函数求导 Softmax 函数将这个向量转化为概率向量 \(\mathbf{y} = [y_1, y_2, \dots, y_N]^T\),其中每个元素 \(y_i\) 表示输入属于第 \(i\) 个类别的概率: \[y_i = P(Y=i|\mathbf{d}) = \frac{e^{d_i}}{\sum_{j=1}^{N} e^{d_j}}\] 在神经网络的反...

【AI思想启蒙11】深度神经网络入门

特征工程决定机器学习成败,一层神经网络通过全连接层实现自动线性特征组合+激活函数引入非线性,使多层网络具备任意函数逼近能力;无激活则退化为线性模型。Softmax为可导多分类,特化即Sigmoid

1.机器学习中最大的难点 特征!特征!特征! 一个好的特征,即使最简单的逻辑回归,也能出色的完成任务 好特征的标准: 区分性强:特征值在不同类别之间应有显著差异,而在同一类别内部应保持相似。 特征多:特征的数量并非越多越好,而是要尽可能覆盖目标变量的所有影响因素。 特征的各类组合:有的时候看基础特征进行分类,意义不大。但是特征组合就很厉害。比如双十一时期,二三十岁的...

【AI思想启蒙10】朴素贝叶斯模型:简单背后蕴含的有效

基于贝叶斯公式+特征独立性假设计算后验概率;对比逻辑回归,讨论缺失值处理(推荐指示变量+树模型)、拉普拉斯平滑防零概率,最后引入信息量/自信息到信息熵的核心概念

1.先验概率和后验概率 先验概率是根据经验得到的,比如看摊位买的西瓜,大致认为60%的概率西瓜是好的。先验概率不需要样本数据,不受任何条件的影响。不根据其他,就根据常识大致判断。 而后验概率就类似于看瓜蒂脱落与否判断西瓜是否是好的。 计算后验概率就是朴素贝叶斯最核心的一步。 联合概率是几个事件同时发生的概率。例如P(瓜熟, 瓜蒂脱落)就是一个联合概率 P (瓜熟,瓜蒂...

【AI思想启蒙09】逻辑回归5让学习更高效,数值优化和一只看不见的手

Z-score标准化解决梯度尺度不一致、加速收敛;从同方差高斯+贝叶斯生成模型推导出逻辑回归与LDA等价;再由最大似然估计自然得到BCE损失本质为负对数似然

1.特征缩放-Z-score标准化/归一化 回顾逻辑回归的损失函数,及其导数: 损失函数是BCE:$$\mathcal{L}_{\text{BCE}}(P   Q) = - \sum_{k \in {0, 1}} P(Y=k) \log Q(Y=k) = - [y \log \hat{y} + (1 - y) \log (1 - ...

【AI思想启蒙08】逻辑回归4让模型看的更准更稳,正则优化

逻辑回归训练中的两大关键问题:1. 参数冗余导致权重无限膨胀、过拟合,需用L2(防溢出、平滑)或L1(特征选择)正则化约束;2. 特征尺度不一致导致梯度椭圆、收敛慢,需归一化(推荐Z-score)使特征同尺度、加速收敛并防止激活函数饱和。

1.参数冗余性 对于同一条决策边界(直线),可以有无数个 \(W\)(或 \(W\) 和 \(W_0\))进行表达。例如,如果 \(W\) 和 \(W_0\) 变为 \(-W\) 和 \(-W_0\),决策边界不变,但预测概率 \(f(x)\) 变为 \(1-f(x)\)。 另外,如果\(W\)变成\(10W\),此时要考虑参数大小的影响(过拟合风险) 当权重 \(W\) 很大时(...

【AI思想启蒙07】逻辑回归3到底好不好?模型评价指标

逻辑回归评估指标:从混淆矩阵引出准确率在不平衡数据下的欺骗性,强调召回率、查准率受阈值影响,指出真正衡量模型排序能力的阈值无关指标是AUC-ROC(正负样本区分度)和AUPRC(不平衡场景更优)

1.逻辑回归指标 1.1混淆矩阵 混淆矩阵 (Confusion Matrix)是评估分类模型性能的基础。它的四个象限记录了模型预测结果与真实标签之间的四种组合:   预测为正 (Positive, P) 预测为负 (Negative, N) 行总计 真实为正 (y=1) ...

【AI思想启蒙06】逻辑回归2损失函数推到解析和特征选择优化

这篇博客系统讲解逻辑回归的全貌:从 sklearn 简单二分类实现入手,详细手推BCE损失对权重的导数,得到梯度形式(ŷ-y)x,并解释了为何必须用 BCE 而非 MSE(避免梯度消失与非凸问题);接着扩展到多分类,对比了工程上易扩展的 OvR 和理论更优的 Softmax 回归(基于多项分布与指数族统一推导出了 Softmax 函数和交叉熵损失);进一步揭示线性回归、逻辑回归、Softmax 回归在广义线性模型(GLM)框架下梯度形式的一致性:都是(预测-真实)×输入特征;最后通过 XOR 例子说明线性不可分问题可通过特征交叉(如加入 x1x2 项)或多层神经网络引入非线性解决,并附完整 PyTorch 实现,堪称从原理到代码一站式深入教程。

1.逻辑回归回顾 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 # -*- encoding:utf-8 -*- from sklearn imp...

【AI思想启蒙05】逻辑回归1猛将起于卒伍,工业环境下的分类模型

逻辑回归是线性回归+Sigmoid的扩展,等价于单层神经网络(输出Sigmoid+BCE损失)。深度学习通过隐藏层+非线性激活(如ReLU)突破线性模型局限,拟合复杂非线性关系。BCE损失本质是最小化真实与预测分布的KL散度;Softmax回归将逻辑回归推广至多分类,使用交叉熵损失实现概率归一化输出。

逻辑回归是线性回归的扩展: 它在线性回归的输出上应用了 Sigmoid 变换。 逻辑回归是最简单的单层神经网络: 它相当于一个只有输入层和输出层(带 Sigmoid 激活函数),并使用二元交叉熵 (BCE) 损失的神经网络。 当神经网络只有一层(没有隐藏层)时,如果输出层是 Sigmoid 激活函数,它就是逻辑回归;如果输出层是恒等激活函数,它就是线性回归。 深度学习通过引入隐...