Hilda

「离开世界之前 一切都是过程」

matplotlib-文本注释箭头

在 Matplotlib 中,添加文本、注释和箭头是使图表更具信息量和解释性的关键。它们可以帮助我们突出关键数据点、解释趋势或提供额外的上下文信息。 常用函数如下: Pyplot函数 API方法 描述 text() mpl.axes.Axes.text() 在 A...

matplotlib-风格和样式

Matplotlib 提供了极其丰富的选项来控制图表中每一个元素的风格和样式,从而创建出美观且信息量大的可视化作品。 1.颜色、线形、点形、线宽、透明度 这些是控制线形图外观最基本的参数,理解它们的用法是创建清晰图表的基础。 plt.plot() 参数详解: color / c:颜色 讲解与原理: 可以使用颜色名称(...

matplotlib-多图布局

在数据可视化中,我们经常需要在同一张画布上展示多个相关的图表,以便进行对比分析或展示不同维度的数据。Matplotlib 提供了多种灵活的方式来实现多图布局。 1.子视图 (Subplots) 子视图是 Matplotlib 中最常用的一种多图布局方式。它允许你在一个 Figure (画布) 对象中创建一个规则的网格,并在每个网格单元中放置一个 Axes (坐标轴) 对象,即一个独立...

matplotlib-基础知识

为了画图时正确显示中文以及负号: 1 2 3 import matplotlib.pyplot as plt plt.rcParams["font.sans-serif"] = ["SimHei"] plt.rcParams["axes.unicode_minus"] = False # 解决负号显示的问题 在数据分析与机器学习中,数据可视化是理解数据、发现模式、验证假设和...

pandas-时间序列

预备 pandas获取当前时间 1 pd.Timestamp.now() 时间序列数据在金融、经济、气象、物联网等众多领域中无处不在。Pandas 提供了强大而灵活的工具来处理、分析和操作时间序列数据。理解其核心概念对于任何数据科学家或分析师都至关重要。 1.时间戳操作 时间戳(Timestamp)是 Pandas 中表示单个特定时间点的数据类型,而时期(Period)表...

pandas-数据排序

1.索引列名排序 df.sort_index() 方法用于根据 DataFrame 的行索引或列索引进行排序。 基本语法: df.sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True) ...

pandas-分组聚合

分组聚合是数据分析中非常强大和常用的操作,它遵循“分-组-合”(Split-Apply-Combine)的范式: 分(Split): 根据某个(或多个)键将数据拆分成组。 组(Apply): 对每个组独立地应用一个函数(例如,聚合、转换或过滤)。 合(Combine): 将各个组的结果合并成一个最终的数据结构。 1.分组 (groupby) df.groupby()...

pandas-分箱操作

分箱操作(Binning),也称为面元划分或离散化,是将连续数据转换为分类(离散)对应物的过程。这在统计分析和机器学习中非常有用,例如将连续的年龄数据划分为“儿童”、“青少年”、“成年人”、“老年人”等类别。 分箱操作主要分为等距分箱和等频分箱。 1. 等宽分箱 (pd.cut) 等宽分箱(Equal-width binning)是将数据值的范围划分为大小相等的区间。每个区间(或“...

pandas-数据转换和数据重塑

在数据分析和机器学习的工作流程中,数据转换和重塑是至关重要的步骤。它们允许我们以不同的方式组织和修改数据,以适应特定的分析需求或模型输入格式。pandas 库提供了丰富而强大的功能来高效地完成这些任务。 1.数据转换 数据转换是指对数据进行修改,使其从一种形式变为另一种形式,通常是为了清洗、标准化或创建新特征。 1.1 轴和元素替换 在数据处理过程中,我们经常需要修改 DataF...

pandas-数学和统计方法

pandas 库不仅提供了强大的数据结构,还内置了丰富的数学和统计方法,以及灵活的数据处理和分析工具。这些功能使得数据汇总、探索、清洗和特征工程变得高效且直观。 pandas 对象(Series 和 DataFrame)拥有一组常用的数学和统计方法,它们属于汇总统计(summary statistics)。这些方法可以对 Series 进行汇总计算(如求均值、最大值),或者对 Data...