Hilda

「离开世界之前 一切都是过程」

pandas-时间序列

预备 pandas获取当前时间 1 pd.Timestamp.now() 时间序列数据在金融、经济、气象、物联网等众多领域中无处不在。Pandas 提供了强大而灵活的工具来处理、分析和操作时间序列数据。理解其核心概念对于任何数据科学家或分析师都至关重要。 1.时间戳操作 时间戳(Timestamp)是 Pandas 中表示单个特定时间点的数据类型,而时期(Period)表...

pandas-数据排序

1.索引列名排序 df.sort_index() 方法用于根据 DataFrame 的行索引或列索引进行排序。 基本语法: df.sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True) ...

pandas-分组聚合

分组聚合是数据分析中非常强大和常用的操作,它遵循“分-组-合”(Split-Apply-Combine)的范式: 分(Split): 根据某个(或多个)键将数据拆分成组。 组(Apply): 对每个组独立地应用一个函数(例如,聚合、转换或过滤)。 合(Combine): 将各个组的结果合并成一个最终的数据结构。 1.分组 (groupby) df.groupby()...

pandas-分箱操作

分箱操作(Binning),也称为面元划分或离散化,是将连续数据转换为分类(离散)对应物的过程。这在统计分析和机器学习中非常有用,例如将连续的年龄数据划分为“儿童”、“青少年”、“成年人”、“老年人”等类别。 分箱操作主要分为等距分箱和等频分箱。 1. 等宽分箱 (pd.cut) 等宽分箱(Equal-width binning)是将数据值的范围划分为大小相等的区间。每个区间(或“...

pandas-数据转换和数据重塑

在数据分析和机器学习的工作流程中,数据转换和重塑是至关重要的步骤。它们允许我们以不同的方式组织和修改数据,以适应特定的分析需求或模型输入格式。pandas 库提供了丰富而强大的功能来高效地完成这些任务。 1.数据转换 数据转换是指对数据进行修改,使其从一种形式变为另一种形式,通常是为了清洗、标准化或创建新特征。 1.1 轴和元素替换 在数据处理过程中,我们经常需要修改 DataF...

pandas-数学和统计方法

pandas 库不仅提供了强大的数据结构,还内置了丰富的数学和统计方法,以及灵活的数据处理和分析工具。这些功能使得数据汇总、探索、清洗和特征工程变得高效且直观。 pandas 对象(Series 和 DataFrame)拥有一组常用的数学和统计方法,它们属于汇总统计(summary statistics)。这些方法可以对 Series 进行汇总计算(如求均值、最大值),或者对 Data...

pandas-数据清洗

数据清洗是数据分析流程中非常耗时但至关重要的一步。它涉及处理重复数据、缺失值、异常值以及不一致的数据格式等问题。pandas 提供了丰富的工具来高效地执行这些任务。 1.重复数据过滤 重复数据是指在数据集中出现多次的完全相同或部分相同的记录。处理重复数据是确保数据质量和分析准确性的重要步骤。 df.duplicated(subset=None, keep='first'): ...

pandas-数据集成

pandas 提供了多种功能来将 Series 和 DataFrame 对象组合在一起,这些操作在数据分析中非常常见,例如合并来自不同来源的数据。 1.concat 数据串联 pd.concat() 函数用于沿着某个轴将 pandas 对象(Series 或 DataFrame)串联(concatenate)起来。它提供了灵活的方式来堆叠数据。 基本语法: pd.concat...

pandas-数据选取

数据选取是数据分析的第一步,它允许我们从大型数据集中提取出感兴趣的子集。pandas 提供了多种直观且高效的方法来实现这一点。 1.字段数据(基本索引) 在 pandas 中,DataFrame 的列可以像字典一样通过键(列名)来访问,也可以像 NumPy 数组一样通过整数位置进行切片。 选择单列: df['ColumnName']:这是最常用和推荐的方...

pandas-数据输入与输出

pandas数据输入与输出。 1.CSV CSV (Comma-Separated Values) 是一种以纯文本形式存储表格数据的格式。它是数据交换最常用的格式之一。pandas 提供了强大的函数来读写 CSV 文件。 df.to_csv(path_or_buf, sep, header, index): 将 DataFrame 保存为 CSV 文件。 ...