视频演示
如何通过实例学习Pandas DataFrame的创建与数据访问
🧩 理解 Pandas DataFrame:数据分析的核心结构
Pandas 是 Python 中用于数据分析与处理的主力库,而 DataFrame 是 Pandas 最常用的二维表格数据结构。我们可以将其想象成一个 Excel 表格,有明确的行列索引,支持多种数据类型,适合进行高效的数据清洗、选择、转换与分析操作。
在本教程中,我们将介绍如何使用不同方式创建 DataFrame 对象,并深入讲解如何通过 `.loc[]` 与 `.iloc[]` 精准访问数据内容。
🏗️ 创建 DataFrame 的三种主流方式
1. 使用嵌套数组创建 DataFrame
这是最基础的方式。只需要传入一个二维列表(或嵌套列表),再指定列标题:
import pandas as pd
data = [["Google", 25], ["Baidu", 30], ["Bing", 22]]
df = pd.DataFrame(data, columns=["Site", "Age"])
print(df)
该方法创建了一个包含两列的表格,分别为 "Site" 和 "Age",每一行为一条记录。类似 Excel,系统会自动生成行索引 0, 1, 2。
2. 使用字典创建 DataFrame
字典创建方式更加直观、灵活。键名表示列标题,键值为该列的所有数据:
data = {"Site": ["Google", "Baidu", "Bing"],"Age": [25, 30, 22]
}
df = pd.DataFrame(data)
print(df)
这种方法特别适合从结构化数据(如JSON、字典等)中快速创建表格。
3. 使用 NumPy 数组创建 DataFrame
若你已有 NumPy 数组进行科学计算,可直接用其作为数据源构建:
import pandas as pd
import numpy as np
arr = np.array([["Google", 25], ["Baidu", 30], ["Bing", 22]])
df = pd.DataFrame(arr, columns=["Site", "Age"])
print(df)
由于 NumPy 的内存效率更高,这种方式适合处理大型数据集。
🔍 精准访问 DataFrame 中的数据
1. 使用 `loc[]` 访问数据(通过标签索引)
data = {"calories": [420, 380, 390],"duration": [50, 40, 45]
}
df = pd.DataFrame(data, index=["day1", "day2", "day3"])
print(df.loc["day2"])
这将返回 `day2` 对应的整行数据。如果你想要多行内容,可传入列表:
print(df.loc[["day1", "day3"]])
还可以指定列:
print(df.loc[["day1", "day3"], ["calories"]])
2. 使用 `iloc[]` 访问数据(通过整数索引)
print(df.iloc[[0, 1], [0]])
这里的 0 和 1 表示第1和第2行,另一个 0 表示第一列,适合在默认索引情况下使用。
✅ 总结与建议
DataFrame 是进行数据分析的基础结构,掌握其创建方法和访问方式能帮助你更快速高效地进行数据清洗与处理。记住:
* 使用 `loc[]` 通过“名字”访问;
* 使用 `iloc[]` 通过“位置”访问;
* 多种创建方式满足不同数据来源;
* 熟练掌握后能轻松实现数据筛选、计算与可视化操作。