Python 数据分析与可视化 Day 8 - Pandas 高级操作技巧

✅ 今日目标

  • 掌握 Pandas 的索引体系(Index / MultiIndex)
  • 使用 set_index()reset_index() 管理数据索引
  • 理解 pivot_tablemeltstack/unstack 重塑数据形态
  • 初步理解“宽表”与“长表”在数据分析与可视化中的应用场景

📚 一、深入理解 Pandas 的索引系统

1. 默认索引 vs 自定义索引

df = pd.read_csv("./data/students_cleaned.csv")# 自定义“姓名”为索引列
df_indexed = df.set_index("姓名")
print(df_indexed.head())# 还原索引为普通列
df_reset = df_indexed.reset_index()

2. 多级索引(MultiIndex)

df_multi = df.set_index(["性别", "是否及格"])
print(df_multi.head())# 多级索引选择
print(df_multi.loc[("男", True)])

📊 二、数据透视表(pivot_table)

类似 Excel 的数据透视功能,可做汇总/分组/聚合操作

# 性别 + 及格情况的平均成绩
pivot = pd.pivot_table(df, values="成绩", index="性别", columns="是否及格", aggfunc="mean")
print(pivot)

🔁 三、数据重塑:长表 ↔ 宽表

1. melt(宽表 → 长表)

df_melted = pd.melt(df, id_vars=["姓名", "性别"], value_vars=["成绩", "是否及格"])
print(df_melted.head())

2. pivot(长表 → 宽表)

# 从 melt 回 pivot
df_pivot = df_melted.pivot(index=["姓名", "性别"], columns="variable", values="value")
print(df_pivot.head())

3. stack & unstack

stacked = df.set_index(["姓名", "性别"]).stack()
print(stacked.head())unstacked = stacked.unstack()
print(unstacked.head())

🧪 今日练习任务建议

  1. 使用 set_indexreset_index 操作学生数据

  2. 创建一个以“性别 + 是否及格”为索引的多级索引表

  3. 统计不同性别在及格与否下的平均成绩(pivot_table)

  4. 使用 melt 将成绩 & 是否及格转换为“指标名 + 值”形式

  5. 使用 stack/unstack 查看层级结构变化

    data/students_cleaned.csv如数如图:
    在这里插入图片描述

    代码示例:

    import pandas as pd
    import os# 数据路径
    input_path = "data/students_cleaned.csv"
    if not os.path.exists(input_path):raise FileNotFoundError("❌ 缺少 students_cleaned.csv,请先运行 clean_data.py")# 加载数据
    df = pd.read_csv(input_path)
    print("✅ 已加载数据:")
    print(df.head())# ========== 一、索引操作 ==========print("\n👉 使用 set_index() 将姓名设为索引:")
    df_indexed = df.set_index("姓名")
    print(df_indexed.head())print("\n🔁 使用 reset_index() 还原索引:")
    df_reset = df_indexed.reset_index()
    print(df_reset.head())# ========== 二、多级索引 ==========print("\n📦 设置多级索引(性别 + 是否及格):")
    df_multi = df.set_index(["性别", "是否及格"])
    print(df_multi.head())print("\n🔍 查询:性别为 '女' 且 及格 的学生:")
    print(df_multi.loc[("女", True)])# ========== 三、pivot_table 操作 ==========print("\n📊 pivot_table 统计性别 + 是否及格下的平均成绩:")
    pivot = pd.pivot_table(df, values="成绩", index="性别", columns="是否及格", aggfunc="mean")
    print(pivot)# ========== 四、melt 数据重塑 ==========print("\n🔄 使用 melt 变长表结构(指标列合并):")
    df_melted = pd.melt(df, id_vars=["姓名", "性别"], value_vars=["成绩", "是否及格"])
    print(df_melted.head())# ========== 五、pivot 还原宽表结构 ==========print("\n🔁 使用 pivot 将 melt 数据还原回宽表:")
    df_pivot = df_melted.pivot(index=["姓名", "性别"], columns="variable", values="value")
    print(df_pivot.head())# ========== 六、stack 和 unstack ==========print("\n📚 使用 stack 增加层级结构(列 → 行):")
    df_stacked = df.set_index(["姓名", "性别"]).stack()
    print(df_stacked.head())print("\n📂 使用 unstack 还原结构(行 → 列):")
    df_unstacked = df_stacked.unstack()
    print(df_unstacked.head())
    

    运行结果:

    ✅ 已加载数据:姓名 性别     成绩   是否及格
    0  张三  男  88.00   True
    1  李四  女  81.75   True
    2  王五  男  59.00  False
    3  田七  女  81.75   True
    4  赵六  女  92.00   True👉 使用 set_index() 将姓名设为索引:性别     成绩   是否及格
    姓名                 
    张三  男  88.00   True
    李四  女  81.75   True
    王五  男  59.00  False
    田七  女  81.75   True
    赵六  女  92.00   True🔁 使用 reset_index() 还原索引:姓名 性别     成绩   是否及格
    0  张三  男  88.00   True
    1  李四  女  81.75   True
    2  王五  男  59.00  False
    3  田七  女  81.75   True
    4  赵六  女  92.00   True📦 设置多级索引(性别 + 是否及格):姓名     成绩
    性别 是否及格            
    男  True   张三  88.00True   李四  81.75False  王五  59.00True   田七  81.75True   赵六  92.00🔍 查询:性别为 '女' 且 及格 的学生:姓名     成绩
    性别 是否及格           
    女  True  李四  81.75True  田七  81.75True  赵六  92.00📊 pivot_table 统计性别 + 是否及格下的平均成绩:
    是否及格  False      True 
    性别                    
    女       NaN  85.16666759.0  88.000000🔄 使用 melt 变长表结构(指标列合并):姓名 性别 variable  value
    0  张三  男       成绩   88.0
    1  李四  女       成绩  81.75
    2  王五  男       成绩   59.0
    3  田七  女       成绩  81.75
    4  赵六  女       成绩   92.0🔁 使用 pivot 将 melt 数据还原回宽表:
    variable     成绩 是否及格
    姓名 性别               
    张三 男       88.0  1.0
    李四 女      81.75  1.0
    王五 男       59.0  0.0
    田七 女      81.75  1.0
    赵六 女       92.0  1.0📚 使用 stack 增加层级结构(列 → 行):
    姓名  性别      
    张三  男   成绩       88.0是否及格     True
    李四  女   成绩      81.75是否及格     True
    王五  男   成绩       59.0
    dtype: object📂 使用 unstack 还原结构(行 → 列):成绩   是否及格
    姓名 性别              
    张三 男    88.0   True
    李四 女   81.75   True
    王五 男    59.0  False
    田七 女   81.75   True
    赵六 女    92.0   True
    

🧾 今日总结

  • 索引是 Pandas 操作效率与表达力的核心
  • 多级索引可构建灵活的数据结构,适合多维度聚合分析
  • pivot_table 是强大而高效的“表格重建”工具
  • melt / pivot / stack / unstack 是数据“变形”关键方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/86450.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/86450.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot整合百度AI人脸比对实战

目录 一、简述 二、依赖 三、代码步骤 3.1 实体注入 3.2 服务实现 3.3 其它实现 四、小结 欢迎来到 盹猫(>^ω^<)的博客 本篇文章主要介绍了 [Spring Boot整合百度AI人脸比对实战] ❤博主广交技术好友&#xff0c;喜欢文章的可以关注一下❤ 一、简述 人脸识别在日…

使用 pip 安装 numpy 包卡在 Preparing metadata 阶段问题解决

TOC 1 问题描述 使用 pip 安装numpy卡在下面最后一行的阶段&#xff1a; Collecting numpy1.26.4 (from -r requirements.txt (line 2))Using cached https://mirrors.aliyun.com/pypi/packages/65/6e/09db70a523a96d25e115e71cc56a6f9031e7b8cd166c1ac8438307c14058/numpy-…

新手向:Anaconda3的安装与使用方法

我们在刚开始接触Python时使用的是Python的直接编译器,如果我们需要进行其他的项目编写往往需要使用另一个版本的Python ,这样反复的下载很是麻烦并且还会造成系统变量的紊乱.这次我们引入Anaconda3,可创建虚拟的Python环境,满足不同项目的需要,当不用的时候可以直接放心删除不…

C#中的设计时构造函数

以下是关于设计时构造函数的详细整理&#xff0c;包括定义、适用场景、相关概念和实际应用&#xff1a; 一、设计时构造函数的定义 设计时构造函数&#xff08;Design-time Constructor&#xff09;是专门为开发工具&#xff08;如Visual Studio、Blazor Designer等&#xff0…

Spring Boot 2.x 项目搭建 (一)

以下是基于Spring Boot 2.x&#xff08;兼容JDK 1.8&#xff09;的项目搭建指南及Markdown文档生成方案&#xff0c;整合了多个搜索结果中的最佳实践&#xff1a; 一、项目初始化 1. 使用Spring Initializr创建项目 步骤&#xff1a; 访问 start.spring.io 或通过IDE&#x…

Kotlin作用域函数:掌握apply/let/run/with/also精髓

一、作用域函数详解 1. apply&#xff1a;对调用对象进行配置或操作&#xff0c;并返回该对象本身。 接收者引用&#xff1a;this&#xff08;可省略&#xff0c;直接调用接收者成员&#xff09;返回值&#xff1a;接收者对象本身&#xff08;T&#xff09;核心用途&#xff…

Spring Boot监视器:应用监控终极指南

Spring Boot 监视器详解 Spring Boot 监视器(Monitor)是用于监控和管理 Spring Boot 应用程序运行状态的核心组件,主要通过 Spring Boot Actuator 和 Spring Boot Admin 两大工具实现。 一、核心监视器组件 1. Spring Boot Actuator 功能定位:提供应用程序内部运行状态的原…

SpringBoot 中 @Transactional 的使用

SpringBoot 中 Transactional 的使用 一、Transactional 的基本使用二、Transactional 的核心属性三、使用避坑&#xff08;失效场景&#xff09;3.1 自调用问题3.2 异常处理不当3.3 类未被 Spring 管理3.4 异步方法内使用失效 四、工作实践4.1 事务提交之后执行一些操作4.2 事…

6.26_JAVA_微服务_Elasticsearch

1、ES文档中keyword意思是&#xff1a;字符串&#xff0c;但不需要分词 2、ES细节CreateIndexRequest request new CreateIndexRequest("items");会让你导包&#xff0c;会有两个选择&#xff1a; import org.elasticsearch.action.admin.indices.create.CreateInd…

Java 大视界 -- 基于 Java 的大数据可视化在智慧城市能源消耗动态监测与优化决策中的应用(324)

Java 大视界 -- 基于 Java 的大数据可视化在智慧城市能源消耗动态监测与优化决策中的应用&#xff08;324&#xff09; 引言&#xff1a;正文&#xff1a;一、Java 驱动的能源数据采集与预处理基建1.1 多源异构数据合规接入层&#xff08;ISO 50001IEC 61850 双标准适配&#x…

C++ 快速回顾(二)

C 快速回顾&#xff08;二&#xff09; 前言一、友元类二、友元函数三、深浅拷贝浅拷贝深拷贝 前言 用于快速回顾之前遗漏或者补充C知识 一、友元类 友元的优点是可以快速的轻松的访问的原本由于私有保护的字段和函数&#xff0c;同时这也是它的缺点这样破坏了原本封装性。 …

ldl-DeserializationViewer一款强大的序列化数据可视化工具

ldl-DeserializationViewer 一款强大的序列化数据可视化工具&#xff0c;能够将Java序列化的缓存数据转换为可读的JSON格式&#xff0c;无需原始DTO类定义。 A powerful visualization tool for serialized data that converts Java serialized cache data to readable JSON f…

NetworkSecurity SIG成立,助力国产操作系统安全生态发展

近期&#xff0c;ZeroOnes实验室团队成员在OpenAtom openKylin&#xff08;简称“openKylin”&#xff09;社区发起成立NetworkSecurity SIG&#xff0c;负责基于openKylin系统开展网络安全工具的研发与适配&#xff0c;助力国产操作系统安全生态发展。 ZeroOnes实验室专注于网…

回归任务与分类任务的区别

回归任务&#xff08;Regression&#xff09;与分类任务&#xff08;Classification&#xff09;是机器学习的两大核心任务类型&#xff0c;其根本区别在于输出变量的性质和任务目标。以下是系统性对比&#xff1a; 1. 本质区别&#xff1a;输出变量类型 任务类型输出&#xf…

Webshell工具的流量特征分析(菜刀,蚁剑,冰蝎,哥斯拉)

Webshell工具的流量特征分析&#xff08;菜刀&#xff0c;蚁剑&#xff0c;冰蝎&#xff0c;哥斯拉&#xff09; 0x00 前言 使用各种的shell工具获取到目标权限&#xff0c;即可进行数据操作&#xff0c;今天来简要分析一下目前常使用的各类shell管理工具的流量特诊&#xff…

【linux】全志Tina配置swupdate工具进行分区打包

一、文件路径 1、描述文件&#xff1a; .\build\swupdate\sw-description-ab 2、镜像打包文件&#xff1a; .\build\swupdate\sw-subimgs-ab.cfg 二、文件作用 1、sw-description-ab 用于描述版本信息和ab区中要打包的分区信息以及挂载点。 2、sw-subimgs-ab.cfg 用于…

MicroPython网络编程:AP模式与STA模式详解

文章目录 1. MicroPython网络模块概述2. 热点AP模式详解2.1 什么是AP模式?2.2 AP模式特点2.3 AP模式设置代码2.4 AP模式适用场景3. 客户端STA模式详解3.1 什么是STA模式?3.2 STA模式特点3.3 STA模式设置代码3.4 STA模式适用场景4. AP与STA模式对比分析5. 实际应用场景与选择建…

Ubuntu网络数据包发送工具大全

在Ubuntu系统中&#xff0c;有多种工具可以用于发送网络数据包&#xff0c;包括UDP、TCP、ICMP等协议。以下是一些常用的工具及其简要介绍&#xff1a; 1. Packet Sender 功能&#xff1a;支持发送和接收TCP、UDP和SSL数据包&#xff0c;提供图形界面和命令行工具。安装&…

小学期前端三件套学习(更新中)

第一阶段 HTML 基础结构 <!DOCTYPE html> <html><head><title>页面标题</title></head><body>页面内容</body> </html>常用内容标签 文本类标签 • <h1>~<h6>&#xff1a;标题&#xff08;h1 每个页面建…

高斯混合模型(Gaussian Mixture Model, GMM)

高斯混合模型&#xff08;Gaussian Mixture Model, GMM&#xff09; 是一种 概率模型&#xff0c;用于表示数据点由多个高斯分布&#xff08;Gaussian Distribution&#xff09;混合生成的过程。它广泛应用于 聚类分析、密度估计、图像分割、语音识别 等领域&#xff0c;尤其适…