我们前面爬取过国家统计局数据爬取——机器学习-CSDN博客的数据,我们接下来就对爬取的数据进行分析。
这是一个完整的数据分析代码,主要用于加载、清洗和探索政府统计数据。让我为你详细解释每个部分:
1. 导入必要的库
import pandas as pd # 数据处理和分析的核心库
import matplotlib.pyplot as plt # 数据可视化库
import seaborn as sns # 基于matplotlib的统计可视化库
from IPython.display import display, HTML # Jupyter Notebook中的显示工具
这些是Python数据分析中最常用的库:
-
pandas: 提供DataFrame数据结构,用于处理表格数据
-
matplotlib: 基础绘图库
-
seaborn: 提供更美观的统计图表
-
IPython.display: 在Jupyter中更好地展示数据
2. 设置显示选项函数
def set_display_options():# Pandas显示设置pd.set_option('display.max_rows', None) # 显示所有行(不限行数)pd.set_option('display.max_columns', None) # 显示所有列(不限列数)pd.set_option('display.width', 1000) # 设置显示宽度为1000字符pd.set_option('display.float_format', '{:.2f}'.format) # 浮点数显示2位小数# Matplotlib中文显示设置plt.rcParams['font.sans-serif'] = ['SimHei'] # 使用黑体解决中文显示问题plt.rcParams['axes.unicode_minus'] = False # 解决负号显示为方块的问题plt.style.use('ggplot') # 使用ggplot主题样式
这部分代码设置了pandas和matplotlib的显示选项,确保数据能够完整显示