Hilda

「离开世界之前 一切都是过程」

pandas-数据清洗

数据清洗是数据分析流程中非常耗时但至关重要的一步。它涉及处理重复数据、缺失值、异常值以及不一致的数据格式等问题。pandas 提供了丰富的工具来高效地执行这些任务。 1.重复数据过滤 重复数据是指在数据集中出现多次的完全相同或部分相同的记录。处理重复数据是确保数据质量和分析准确性的重要步骤。 df.duplicated(subset=None, keep='first'): ...

pandas-数据集成

pandas 提供了多种功能来将 Series 和 DataFrame 对象组合在一起,这些操作在数据分析中非常常见,例如合并来自不同来源的数据。 1.concat 数据串联 pd.concat() 函数用于沿着某个轴将 pandas 对象(Series 或 DataFrame)串联(concatenate)起来。它提供了灵活的方式来堆叠数据。 基本语法: pd.concat...

pandas-数据选取

数据选取是数据分析的第一步,它允许我们从大型数据集中提取出感兴趣的子集。pandas 提供了多种直观且高效的方法来实现这一点。 1.字段数据(基本索引) 在 pandas 中,DataFrame 的列可以像字典一样通过键(列名)来访问,也可以像 NumPy 数组一样通过整数位置进行切片。 选择单列: df['ColumnName']:这是最常用和推荐的方...

pandas-数据输入与输出

pandas数据输入与输出。 1.CSV CSV (Comma-Separated Values) 是一种以纯文本形式存储表格数据的格式。它是数据交换最常用的格式之一。pandas 提供了强大的函数来读写 CSV 文件。 df.to_csv(path_or_buf, sep, header, index): 将 DataFrame 保存为 CSV 文件。 ...

pandas-数据结构与数据查看

在数据科学领域,Python 是最受欢迎的编程语言之一,但它在数据处理和分析方面的原生能力相对有限。pandas 是一个强大的库,它为 Python 补足了这一短板,能够在 Python 中完成从数据清洗、整理到分析、建模的整个工作流程,而无需切换到其他语言,如 R。 pandas 提供了快速、灵活且直观的数据结构,旨在简单地处理各种关系型或标记型数据。它与 Jupyter 等工具以及...

线性代数-奇异值分解SVD

特征值分解是一个提取矩阵特征很不错的方法,但是它只适用于方阵。而在现实的世界中,我们看到的大部分矩阵都不是方阵,比如说有 m 个学生,每个学生有 n 科成绩,这样形成的一个 m * n 的矩阵就可能不是方阵,怎样才能像描述特征值一样描述这样一般的矩阵的重要特征呢?奇异值分解就是用来干这个事的,奇异值分解是一个能适用于任意的矩阵的一种分解的方法。 1.奇异值和特征值的关系 那么...

numpy-练习

1、给定一个4维矩阵,如何得到最后两维的和?(提示,指定axis进行计算) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 X = np.random.randint(0, 10, (2, 2, 3, 3)) display(X) """ array([[[[9, 2, 6], ...

numpy-线性代数

NumPy 不仅仅是一个高效的数组库,它还提供了强大的线性代数功能,这是机器学习、科学计算和数据分析的基石。 线性代数是数学的一个分支,研究向量空间和线性变换。在 NumPy 中,线性代数操作是高度优化的,通常通过 numpy.linalg 模块提供。 1.矩阵乘积 矩阵乘法是线性代数中最基本也是最重要的操作之一。它不同于逐元素乘法(Hadamard 乘积)。 定义: 只有...

numpy-实战:用 NumPy 分析鸢尾花花萼属性各项指标

实战 - 用 NumPy 分析鸢尾花花萼属性各项指标 本节将通过一个实际案例来展示如何使用 NumPy 对数据集进行基本的数据加载、清洗和统计分析。我们将使用经典的鸢尾花(Iris)数据集中的花萼长度数据。 1.数据加载与初步处理 数据加载: np.loadtxt() 函数用于从文本文件加载数据。 fname:文件名或文件路径。 delimi...

numpy-通用函数

NumPy 的核心优势之一在于其对“通用函数”(Universal Functions,通常简称为 UFuncs)的支持。UFuncs 是对 ndarray 对象进行逐元素操作的函数。它们是 NumPy 性能的关键,因为它们在 C 语言层面实现,并且能够自动利用矢量化和广播机制,从而在处理大型数组时提供极高的效率。 1.元素级数字函数 通用函数(UFuncs)是 NumPy 提供的一...