Hilda

「离开世界之前 一切都是过程」

机器学习算法1-KNN回归任务任务

1.KNN回归的直观理解:局部平均 KNN回归的核心思想是,相似的数据点在特征空间中彼此靠近 。当需要对新数据点进行预测时,KNN算法会识别出与该新数据点最接近的“k”个邻居,并利用这些已知邻居的目标值来估计新数据点的值 。这本质上是一种局部插值或平滑技术 。通过这种方式,KNN假设局部区域内的点具有相似的属性,因此可以根据其邻居的平均值来预测新点的值。 2.权重规则 2.1 简单...

scikit-learn 模型直接处理的非数值型数据

案例说明:利用KNN做分类任务“预测年收入是否大于50K美元”,读取adult.txt文件,最后一列是年收入,并使用KNN算法训练模型,然后使用模型预测一个人的年收入是否大于50 1 2 3 4 5 6 df = pd.read_csv("../data/adults.txt", delimiter=",") display(df) X_train = df.iloc[:, :-1] ...

机器学习算法1-KNN分类任务

回顾: KNN的两个核心特性是非参数性和惰性学习,它们共同定义了该算法的行为和适用性: 非参数性:KNN不假设数据服从任何特定的底层分布。这使其具有高度灵活性,适用于数据可能不遵循理论分布的实际场景 。与线性回归等参数模型相比,这是一个显著的优势,因为线性回归需要对数据关系做出特定假设 。 惰性学习:如前所述,KNN在预测时才进行所有计算,没有显式的训...

机器学习算法1-KNN

总结:机器学习代码套路 准备数据 (DataFrame可以直接参与训练,但是一般要求都是二维的;一般可以尝试用numpy的ndarray进行训练,df转换成ndarray的方法:df.values即可)如果是df,第一个维度一般是样本数量,第二个维度一般是特征数量。对于有监督学习的标签y_train,一般是一维的,...

seaborn-使用指南

Seaborn 是一个基于 Matplotlib 的 Python 数据可视化库。它的核心优势在于提供了一个高级的、面向统计绘图的接口。与 Matplotlib 相比,Seaborn 的默认样式更美观,并且内置了多种数据集中常用的统计图表,如箱线图、热力图、小提琴图等,能够帮助我们快速、优雅地进行数据探索和可视化。 1.安装Seaborn 1 pip install seaborn ...

matplotlib-3D图形

Matplotlib 也可以绘制基本的三维图表,这对于可视化三维数据或函数非常有用。要绘制 3D 图形,需要导入 mpl_toolkits.mplot3d。 要创建 3D 图形,首先需要导入 mpl_toolkits.mplot3d.axes3d 模块中的 Axes3D。 创建 3D Axes 的两种常见方法: 在 Figure 中添加 3D 子图: fig = plt.fi...

matplotlib-常见10种视图

1.折线图 (Line Plot) 折线图是显示数据随时间或有序类别变化的趋势的常用图表。它通过连接一系列数据点来展示数值型变量的连续变化。 主要函数是 plt.plot(*args, scalex=True, scaley=True, data=None, **kwargs) 或 ax.plot(*args, **kwargs)。 *args: 可以接受多种形式的输入,最常...

matplotlib-文本注释箭头

在 Matplotlib 中,添加文本、注释和箭头是使图表更具信息量和解释性的关键。它们可以帮助我们突出关键数据点、解释趋势或提供额外的上下文信息。 常用函数如下: Pyplot函数 API方法 描述 text() mpl.axes.Axes.text() 在 A...

matplotlib-风格和样式

Matplotlib 提供了极其丰富的选项来控制图表中每一个元素的风格和样式,从而创建出美观且信息量大的可视化作品。 1.颜色、线形、点形、线宽、透明度 这些是控制线形图外观最基本的参数,理解它们的用法是创建清晰图表的基础。 plt.plot() 参数详解: color / c:颜色 讲解与原理: 可以使用颜色名称(...

matplotlib-多图布局

在数据可视化中,我们经常需要在同一张画布上展示多个相关的图表,以便进行对比分析或展示不同维度的数据。Matplotlib 提供了多种灵活的方式来实现多图布局。 1.子视图 (Subplots) 子视图是 Matplotlib 中最常用的一种多图布局方式。它允许你在一个 Figure (画布) 对象中创建一个规则的网格,并在每个网格单元中放置一个 Axes (坐标轴) 对象,即一个独立...