目录
数据结构
pandas.Series :一维数组,类似于数组,但索引可以是任意类型,而不仅仅是整数
pandas.DataFrame :二维表格型数据结构,类似于 Excel 表格,每列可以是不同的数据类型
数据读取与写入
读取数据
pd.read_csv() :读取 CSV 文件
pd.read_excel() :读取 Excel 文件
pd.read_sql() :从数据库读取数据
写入数据
DataFrame.to_csv() :将数据写入 CSV 文件
DataFrame.to_excel() :将数据写入 Excel 文件
DataFrame.to_sql() :将数据写入数据库
数据选择与索引
基于标签的索引
DataFrame.loc :按标签选择数据
Series.loc :按标签选择数据
基于位置的索引
DataFrame.iloc :按位置选择数据
Series.iloc :按位置选择数据
布尔索引
数据清洗与预处理
处理缺失值
DataFrame.dropna() :删除缺失值
DataFrame.fillna() :填充缺失值
数据类型转换
DataFrame.astype() :转换数据类型
重复数据处理
DataFrame.drop_duplicates() :删除重复数据
数据分组与聚合
分组
DataFrame.groupby() :对数据进行分组
聚合
GroupBy.sum() :计算每组的总和
GroupBy.mean() :计算每组的平均值
GroupBy.agg() :自定义聚合函数
数据合并与连接
合并
pd.concat() :沿特定轴连接多个对象
DataFrame.merge() :基于共同列合并数据
连接
DataFrame.join() :按索引连接两个对象
数据排序与排名
排序
DataFrame.sort_values() :按值排序
DataFrame.sort_index() :按索引排序
排名
DataFrame.rank() :对数据进行排名
数据时间序列
时间序列创建
pd.date_range() :创建日期范围
pd.to_datetime() :将字符串转换为日期时间格式
时间序列操作
DataFrame.resample() :对时间序列数据进行重采样
DataFrame.shift() :将数据沿时间轴移动
数据可视化
DataFrame.plot() :绘制数据图表
Series.plot() :绘制序列图表
Pandas 是 Python 中一个功能强大的数据分析库,它提供了大量用于数据处理、分析和转换的方法。以下按照不同的功能类别详细介绍 Pandas 库中常用的方法:
数据结构
-
pandas.Series :一维数组,类似于数组,但索引可以是任意类型,而不仅仅是整数
-
pandas.DataFrame :二维表格型数据结构,类似于 Excel 表格,每列可以是不同的数据类型
## 数据结构
import pandas as pd# 创建 Series, s.index获取索引, s.values获取数据值
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
print(s)
# a 1
# b 2
# c 3
# dtype: int64print(s.index) # Index(['a', 'b', 'c'], dtype='object')
print(s.values) # [1 2 3]# 创建 DataFrame, df.index获取行索引, df.columns获取列索引, df.values获取数据值
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(df)
# A B
# 0 1 4
# 1 2 5
# 2 3 6print(df.index) # RangeIndex(start=0, stop=3, step=1)
print(df.columns) # Index(['A', 'B'], dtype='object')
print(df.values)
# [[1 4]
# [2 5]
# [3 6]]
数据读取与写入
读取数据
-
pd.read_csv() :读取 CSV 文件
-
pd.read_excel() :读取 Excel 文件
-
pd.read_sql() :从数据库读取数据
## 数据读取与写入
# 读取数据
import pandas as pd
import sqlite3# 读取 CSV 文件
df = pd.read_csv('data.csv')
print(df)# 读取 Excel 文件
df = pd.read_excel('data.xlsx')
print(df)# 从 SQLite 数据库读取数据
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table_name', conn)
print(df)
写入数据
-
DataFrame.to_csv() :将数据写入 CSV 文件
-
DataFrame.to_excel() :将数据写入 Excel 文件
-
DataFrame.to_sql() :将数据写入数据库
# 写入数据
import pandas as pd
import sqlite3# 写入 CSV 文件
df.to_csv('output.csv', index=False)# 写入 Excel 文件
df.to_excel('output.xlsx', index=False)# 将数据写入 SQLite 数据库
df.to_sql('table_name', conn, if_exists='replace', index=False)
数据选择与索引
基于标签的索引
-
DataFrame.loc :按标签选择数据
## 数据选择与索引# 按标签选择数据
import pandas as pd# 创建一个 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['row1', 'row2', 'row3'])
print("原始 DataFrame:")
print(df)
# A B
# row1 1 4
# row2 2 5
# row3 3 6# 按标签选择单个元素
print("\n选择 'row1' 行和 'A' 列的元素:")
print(df.loc['row1', 'A']) # 1# 按标签选择多行和多列
print("\n选择 'row1' 和 'row2' 行,以及 'A' 和 'B' 列:")
print(df.loc[['row1', 'row2'], ['A', 'B']])
# A B
# row1 1 4
# row2 2 5# 按标签选择所有行,但只选择特定列
print("\n选择所有行,但只选择 'B' 列:")
print(df.loc[:, 'B'])
# row1 4
# row2 5
# row3 6
# Name: B, dtype: int64
-
Series.loc :按标签选择数据
# 创建一个 Series
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
print("\n原始 Series:")
print(s)
# 原始 Series:
# a 1
# b 2
# c 3
# dtype: int64# 按标签选择单个元素
print("\n选择 'a' 索引的元素:")
print(s.loc['a']) # 1# 按标签选择多个元素
print("\n选择 'a' 和 'c' 索引的元素:")
print(s.loc[['a', 'c']])
# a 1
# c 3
# dtype: int64
基于位置的索引
-
DataFrame.iloc :按位置选择数据
# 基于位置的索引
import pandas as pd# 创建一个 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print("原始 DataFrame:")
print(df)
# A B
# 0 1 4
# 1 2 5
# 2 3 6# 按位置选择单个元素
print("\n选择第1行第1列的元素:")
print(df.iloc[0, 0]) # 1# 按位置选择多行和多列
print("\n选择第1行和第2行,以及第0列和第1列:")
print(df.iloc[[0, 1], [0, 1]])
# A B
# 0 1 4
# 1 2 5# 按位置选择所有行,但只选择特定列
print("\n选择所有行,但只选择第1列:")
print(df.iloc[:, 1])
# 0 4
# 1 5
# 2 6
# Name: B, dtype: int64
-
Series.iloc :按位置选择数据
# 创建一个 Series
s = pd.Series([1, 2, 3])
print("\n原始 Series:")
print(s)
# 0 1
# 1 2
# 2 3
# dtype: int64# 按位置选择单个元素
print("\n选择第0个位置的元素:")
print(s.iloc[0]) # 1# 按位置选择多个元素
print("\n选择第0个和第2个位置的元素:")
print(s.iloc[[0, 2]])
# 0 1
# 2 3
# dtype: int64
布尔索引
根据条件筛选数据
# 根据条件筛选数据
import pandas as pd# 创建一个 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
filtered_df = df[df['A'] > 2]
print(filtered_df)
# dtype: int64
# A B
# 2 3 6
数据清洗与预处理
处理缺失值
-
DataFrame.dropna() :删除缺失值
-
DataFrame.fillna() :填充缺失值
数据类型转换
-
DataFrame.astype() :转换数据类型
重复数据处理
-
DataFrame.drop_duplicates() :删除重复数据
## 数据清洗与预处理# 删除缺失值
df.dropna(inplace=True)
# 填充缺失值
df.fillna(0, inplace=True)# 转换数据类型
df['A'] = df['A'].astype('int')
# 删除重复数据
df.drop_duplicates(inplace=True)
数据分组与聚合
分组
-
DataFrame.groupby() :对数据进行分组
聚合
-
GroupBy.sum() :计算每组的总和
-
GroupBy.mean() :计算每组的平均值
-
GroupBy.agg() :自定义聚合函数
## 数据分组与聚合# 对数据进行分组
grouped = df.groupby('column_name')# 计算每组的总和
grouped.sum()# 计算每组的平均值
grouped.mean()# 自定义聚合函数
grouped.agg(['mean', 'sum', 'max'])
数据合并与连接
合并
-
pd.concat() :沿特定轴连接多个对象
-
DataFrame.merge() :基于共同列合并数据
## 数据合并与连接
# 合并
# 沿特定轴连接多个对象, 0行1列
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
concatenated_df = pd.concat([df1, df2], axis=0)
print(concatenated_df)
# A B
# 0 1 3
# 1 2 4
# 0 5 7
# 1 6 8# 基于共同列合并数据
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [1, 2], 'C': [5, 6]})
merged_df = df1.merge(df2, on='A')
print(merged_df)
# A B C
# 0 1 3 5
# 1 2 4 6
连接
-
DataFrame.join() :按索引连接两个对象
# 连接
# 按索引连接两个对象, lsuffix和rsuffix是当列名冲突时在后添加后缀,以便区分
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'C': [5, 6], 'D': [7, 8]})
joined_df = df1.join(df2, lsuffix='_left', rsuffix='_right')
print(joined_df)
数据排序与排名
排序
-
DataFrame.sort_values() :按值排序
-
DataFrame.sort_index() :按索引排序
## 数据排序与排名# 排序
df = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
sorted_df = df.sort_values('A', ascending=False)
print(sorted_df)
# A B
# 1 2 4
# 0 1 3# 按索引排序
sorted_df = df.sort_index()
print(sorted_df)
# A B
# 0 1 3
# 1 2 4
排名
-
DataFrame.rank() :对数据进行排名
# 排名
df = pd.DataFrame({'A': [2, 1, 3], 'B': [4, 6, 5]})
# 对数据进行排名
ranked_df = df.rank()
print(ranked_df)
# A B
# 0 2.0 1.0
# 1 1.0 3.0
# 2 3.0 2.0
数据时间序列
时间序列创建
-
pd.date_range() :创建日期范围
-
pd.to_datetime() :将字符串转换为日期时间格式
## 数据时间序列
# 时间序列创建
# 创建日期范围
dates = pd.date_range(start='2025-07-01', end='2025-08-1')
print(dates)
# DatetimeIndex(['2025-07-01', '2025-07-02', '2025-07-03', '2025-07-04',
# '2025-07-05', '2025-07-06', '2025-07-07', '2025-07-08',
# '2025-07-09', '2025-07-10', '2025-07-11', '2025-07-12',
# '2025-07-13', '2025-07-14', '2025-07-15', '2025-07-16',
# '2025-07-17', '2025-07-18', '2025-07-19', '2025-07-20',
# '2025-07-21', '2025-07-22', '2025-07-23', '2025-07-24',
# '2025-07-25', '2025-07-26', '2025-07-27', '2025-07-28',
# '2025-07-29', '2025-07-30', '2025-07-31', '2025-08-01'],
# dtype='datetime64[ns]', freq='D')# 将字符串转换为日期时间格式
date = pd.to_datetime('2025-07-01')
print(date) # 2025-07-01 00:00:00
时间序列操作
-
DataFrame.resample() :对时间序列数据进行重采样
-
DataFrame.shift() :将数据沿时间轴移动
# 对时间序列数据进行重采样
dates = pd.date_range(start='2025-07-01', end='2025-07-4')
df = pd.DataFrame({'value': [1, 2, 3, 4]}, index=dates)
resampled_df = df.resample('M').mean()
print(resampled_df)
# value
# 2025-07-31 2.5# 将数据沿时间轴移动
shifted_df = df.shift(periods=1, freq='D')
print(shifted_df)
# value
# 2025-07-02 1
# 2025-07-03 2
# 2025-07-04 3
# 2025-07-05 4
数据可视化
-
DataFrame.plot() :绘制数据图表
## 数据可视化
# 绘制数据图表
import matplotlib.pyplot as pltdf = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df.plot(kind='line', x='A', y='B')
plt.show()
-
Series.plot() :绘制序列图表
# 绘制序列图表
import matplotlib.pyplot as plts = pd.Series([1, 2, 3])
s.plot(kind='bar')
plt.show()