数据分析:合并

🔷 DA37:统计运动会项目报名人数(仅输出有人报名的项目)

✅ 题目描述

给定两个 CSV 文件:

  • items.csv:包含项目信息(item_id, item_name, location)
  • signup.csv:包含员工报名信息(employee_id, name, sex, department, item_id)

要求:统计每个项目的报名人数,只输出报名人数不为 0 的项目。

💡 即:只要有人报了的项目才显示。


✅ 正确代码

import pandas as pddf_items = pd.read_csv('items.csv', sep=',')
df_signup = pd.read_csv('signup.csv', sep=',')# 内连接合并,自动过滤没有报名记录的项目
df_merge = pd.merge(df_items, df_signup, on='item_id')# 按项目名称分组,统计 employee_id 的数量
result = df_merge.groupby('item_name')['employee_id'].size()print(result)

🔍 代码解析

解释
pd.merge(..., on='item_id')使用 item_id 作为键进行内连接(默认),只有在两个表中都存在的项目才会保留 → 自动排除无人报名的项目
.groupby('item_name')按“项目名称”分组
['employee_id'].size()统计每组中有多少条记录(即报名人数)<br>⚠️ 注意:size() 包括 NaN 值;若用 count() 则会跳过 NaN(更安全)
print(result)输出 Series:索引是项目名,值是人数

✅ 特点:使用 inner join(默认),天然只保留有报名数据的项目。


🧠 扩展知识

知识点说明
merge() 默认行为不指定 how 时,默认为 'inner',即只保留两表共有的 key
groupby().size() vs .count()<ul><li>size():返回每组总行数,包括 NaN</li><li>count():对各列统计非空值个数</li></ul>在此场景下两者等价(employee_id 不为空)
输出格式返回的是一个 Series,打印时自动省略列名,符合题目要求

🔷 DA38:统计运动会项目报名人数(二)—— 包含无人报名的项目

✅ 题目描述

同上,但这次要求:

输出 items.csv 中所有项目的报名人数,即使没人报名也显示为 0。


✅ 正确代码

import pandas as pddf_items = pd.read_csv('items.csv', sep=',')
df_signup = pd.read_csv('signup.csv', sep=',')# 左连接:以 items 为主表,保留所有项目
df_merge = pd.merge(df_items, df_signup, on='item_id', how='left')# 分组并使用 count 统计非空 employee_id 数量
result = df_merge.groupby('item_name')['employee_id'].count()print(result)

🔍 代码解析

关键点解释
how='left'左连接,确保 df_items 中的所有项目都被保留<br>→ 即使没人报名,也会出现在结果中,employee_id 为 NaN
.count()只统计非 NaN 的值 → 无人报名则为 0
groupby('item_name')按项目名聚合
print(result)输出所有项目及其报名人数(含 0)

✅ 核心思想:主表驱动 + left join + count 处理缺失值


🧠 扩展知识

技巧应用场景
left join主表完整、从表补充信息的经典模式(如商品+销量)
fillna(0)如果你想显式补零:df_merge['employee_id'].fillna(0)
reindex()若想确保所有项目按 items.csv 顺序出现,可用 reindex

🔷 DA39:多报名表的运动项目人数统计

✅ 题目描述

新增一个文件 signup1.csv,是另一个部门的报名数据。 要求:将 signup.csvsignup1.csv 合并后,再统计各项目的报名人数(只输出有人报名的)。


✅ 正确代码

import pandas as pditem = pd.read_csv("items.csv", sep=",")
sign = pd.read_csv("signup.csv", sep=",")
sign1 = pd.read_csv("signup1.csv", sep=",")# 上下拼接两个报名表
sign_m = pd.concat([sign, sign1], axis=0)# 与项目表内连接
m = pd.merge(sign_m, item, how="inner", on="item_id")# 按项目名分组,统计员工数量
print(m.groupby("item_name")["employee_id"].count())

🔍 代码解析

步骤说明
pd.concat([sign, sign1], axis=0)将两个报名表纵向堆叠(union),合并成一张大报名表
axis=0沿行方向拼接(上下接)
merge(..., how='inner')只保留存在于 items.csv 中的项目(防止无效 item_id)
groupby().count()统计每个项目的总报名人数(来自两个文件)

✅ 重点:先合并报名数据,再关联项目信息。


🧠 扩展知识

方法用途
pd.concat([...], ignore_index=True)重置行索引,避免重复 index
append() 已弃用推荐使用 concat 替代
去重处理若担心重复报名:sign_m.drop_duplicates(subset=['employee_id', 'item_id'])

🔷 DA40:统计职能部门中报名标枪的员工信息

✅ 题目描述

找出 职能部门(functional) 中报名了 标枪(javelin) 的所有员工,并输出他们的:

  • employee_id
  • name
  • sex

⚠️ 注意:结果要重置索引(从 0 开始连续编号)


✅ 正确代码

import pandas as pd df1 = pd.read_csv("items.csv", sep=',')
df2 = pd.read_csv("signup.csv", sep=',')# 先合并项目和报名信息
df = pd.merge(df1, df2, on='item_id')# 筛选条件:部门是 functional,项目是 javelin
df_fun = df[(df.department == 'functional') & (df.item_name == "javelin")]# 选择指定列并重置索引
result = df_fun[["employee_id", "name", "sex"]].reset_index(drop=True)print(result)

🔍 代码解析

步骤说明
pd.merge(..., on='item_id')获取每个报名记录对应的项目名称
(df.A == X) & (df.B == Y)多条件筛选,注意括号和 &(不能用 and
df[[...]]选取特定列
.reset_index(drop=True)重新生成从 0 开始的整数索引,丢弃原索引

✅ 输出是一个 DataFrame,结构清晰。


🧠 扩展知识

技术点提示
条件逻辑运算符<ul><li>&:且</li><li>&#124;:或</li><li>~:非</li></ul>必须加括号!
字符串匹配若不确定拼写可用:<br>df.item_name.str.contains('javelin', case=False)
query() 方法更简洁的筛选方式:<br>df.query("department == 'functional' and item_name == 'javelin'")
drop=True避免旧索引变成新列

📚 总结对比表(四题核心差异)

题号目标关键操作连接方式聚合/筛选
DA37有人报名的项目人数merge + groupby + sizeinner (default)只输出有数据的
DA38所有项目(含0人)merge + left + countleft显示0人项目
DA39多报名表汇总concat + merge + countinner合并多个源数据
DA40特定人群信息查询merge + 多条件筛选 + 列选择inner输出明细数据

🛠️ 通用技巧总结

场景推荐做法
合并多个 CSV 报名表pd.concat([df1, df2], axis=0)
关联项目信息pd.merge(..., on='item_id')
统计数量groupby().size() 或 .count()
保留主表全部数据how='left'
筛选满足多个条件的数据(cond1) & (cond2)
输出前清理索引.reset_index(drop=True)
防止拼写错误检查字段名:df.columns.tolist()

✅ 学习建议

  1. 动手实践:把这几道题的数据自己构造出来跑一遍。
  2. 理解 merge 类型:inner/left/right/outer 的区别是关键。
  3. 掌握 groupby 和 count/size:数据分析最常用组合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/96449.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/96449.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高并发内存池(一):项目介绍和ThreadCache(线程缓存)实现

前言&#xff1a;本文将要介绍的高并发内存池&#xff0c;它的原型是Google的⼀个开源项⽬tcmalloc&#xff0c;全称Thread-Caching Malloc&#xff0c;近一个月我将以学习为目的来模拟实现一个精简版的高并发内存池&#xff0c;并对核心技术分块进行精细剖析&#xff0c;分享在…

RK3399平台ffmpeg-VPU硬编码录制USB摄像头视频、H264或MJPEG编码

文章目录 1 前言2 项目内容详细说明2.0 功能2.1 工程文件夹说明 3 代码3.1 CameraThread类3.1 CameraThreadImpl类 4 资源下载 1 前言 在某项目中需要在RK3399平台实现USB摄像头画面的实时预览、视频录制、拍照存储等功能。   先来看需要实现的最终效果。    ffmpeg USB摄…

解决蓝牙耳机连win11电脑画质依托答辩问题

以wh910n蓝牙耳机为例 设置-系统-声音-输出&#xff08;耳机&#xff09;-常规&#xff08;输出点不允许&#xff09;然后删除wh910n蓝牙设备 重新配对蓝牙耳机

独立显卡和集成显卡切换电脑卡住了怎么办?

你是不是也遇到过这种情况——正忙着切换显卡呢&#xff0c;电脑突然就卡住了&#xff0c;鼠标不动、屏幕定格&#xff0c;怎么按都没反应&#xff1f;其实这种问题挺常见的&#xff0c;尤其是用了双显卡的笔记本或者工作站。别急着强制关机&#xff0c;嗯&#xff0c;咱们一步…

Java根据模版导出PDF文件

问题 工作中经常有这样的需求&#xff0c;将一些数据&#xff0c;导出为下图的PDF文件&#xff0c;那Java怎么做呢&#xff1f;今天手把手教你 准备模版 模版地址&#xff1a;https://download.csdn.net/download/ZHUSHANGLIN/91923381 修改模版使用AcrobatProPortable工具…

力扣hot100:环形链表(快慢指针法)(141)

一、题目描述二、思路分析这是链表题目中的经典问题&#xff0c;核心就是 如何判断链表是否有环。 常见的两种方法有&#xff1a;哈希表法&#xff1a;用一个集合存储访问过的节点&#xff0c;如果再次遇到相同节点说明有环。缺点&#xff1a;需要额外的空间&#xff0c;空间复…

AI 智能编码工具:重塑开发效率的革命,从 GitHub Copilot 到国产新秀的全面解析

目录 引言 一、主流智能编码工具深度测评&#xff1a;从功能到实战 1. GitHub Copilot&#xff1a;AI 编码的 “开山鼻祖” 核心特性与实战代码 优缺点总结 2. Baidu Comate&#xff1a;文心大模型加持的 “国产之光” 核心特性与实战代码 优缺点总结 3. 通义灵码&…

Server 13 ,CentOS 上使用 Nginx 部署多个前端项目完整指南( 支持多端口与脚本自动化 )

目录 前言 一、实际背景 1.1 并行部署 1.2 接口代理 1.3 刷新问题 二、安装脚本 2.1 创建脚本 2.2 不同系统 2.3 执行完成 三、配置文件 3.1 配置文件 3.2 目录结构 3.3 重新启动 四、验证访问 五、问题排查 5.1 访问 404 5.2 接口 502 六、本文总结 6.1 清理…

2025最新:彻底解决Docker拉取镜像超时问题

文章目录&#x1f433; 解决 Docker 拉取镜像超时&#xff1a;context deadline exceeded 完整指南&#xff08;2025 亲测有效&#xff09;&#x1f525; 问题描述&#x1f9e9; 根本原因分析✅ 解决方案汇总✅ 方案 1&#xff1a;配置多源镜像加速器&#xff08;推荐&#xff…

小鹏汽车 vla 算法最新进展和模型结构细节

小鹏汽车在 VLA&#xff08;视觉 - 语言 - 动作&#xff09;算法领域的最新进展和模型结构细节&#xff0c;体现了其在端到端智驾系统和车端大模型部署上的技术突破。以下是基于 2025 年 9 月最新公开信息的深度解析&#xff1a; 一、最新进展&#xff1a;全场景 VLA 系统量产落…

斐波那契数列推广

目录 问题&#xff1a; 法一&#xff1a; 法二&#xff1a; 例题: 问题&#xff1a; 已知斐波那契数列的第一个和最后一个数字&#xff0c;如何求整个数列&#xff08;即第二个数字&#xff09; 法一&#xff1a; 主要是将数列拆分成两个数列的思想 法二&#xff1a; 暴力…

基于STM32设计的智慧路灯(华为云IOT)_281

文章目录 一、前言 1.1 项目介绍 【1】项目开发背景 【2】设计实现的功能 【3】项目硬件模块组成 【4】设计意义 【5】国内外研究现状 【6】摘要 1.2 设计思路 1.3 系统功能总结 1.4 开发工具的选择 【1】设备端开发 【2】上位机开发 1.5 参考文献 1.6 系统框架图 1.7 系统原理…

实验十 合理定义分布列实现性能优化-分布式表关联

实验介绍本实验通过分析普通查询过程中存在的性能瓶颈点&#xff0c;通过执行计划的分析找到可能的性能优化点并加以实施&#xff0c;最终达到优化的效果&#xff0c;重点关注分布式关联相关查询语句的优化。实验目的了解通过合理定义分布列实现分布式关联的性能优化。实验步骤…

C#,RabbitMQ从入门到精通,.NET8.0(路由/分布式/主题/消费重复问题 /延迟队列和死信队列/消息持久化 )/RabbitMQ集群模式

为什么使用消息队列 消息队列&#xff08;MQ&#xff09;在分布式系统中用于解耦生产者和消费者&#xff0c;提高系统的异步处理能力、削峰填谷、增强可扩展性和可靠性。通过消息队列&#xff0c;任务可以异步执行&#xff0c;避免系统因瞬时高并发而崩溃。 消息队列场景 异…

OpenHarmony之SELinux安全组件底层原理设计架构精讲

1. 组件介绍 1.1 核心功能 **SELinux(安全增强式Linux)**是Linux历史上杰出的安全组件,包含一组内核修改和用户空间工具,并提供了基于安全策略的强制访问控制机制(Mandatory Access Control,MAC)。本部件负责对文件、属性、服务等系统资源提供强制访问控制保护,提供n…

IIS 部署 asp.net core 项目时,出现500.19、500.31问题的解决方案

目录 &#xff08;一&#xff09;500.19 问题 1. 问题说明 2. 原因 3. 解决 &#xff08;二&#xff09;500.31 问题 1. 问题说明 2. 原因 打开事件检视器的3种方式&#xff1a; 3. 解决 &#xff08;一&#xff09;500.19 问题 1. 问题说明 2. 原因 Web项目发布时&am…

中大型水闸安全监测的重要性及实施方法

水闸作为水利工程体系中的关键性构筑物&#xff0c;其结构安全性和运行可靠性直接影响到整个水利系统的稳定运行&#xff0c;更与下游地区人民群众的生命财产安全息息相关。作为水利枢纽工程的重要控制节点&#xff0c;水闸承担着防洪排涝、灌溉供水、航运发电等多重功能&#…

【芯片设计-信号完整性 SI 学习 1.1.1 -- Unit Interval,比特周期】

文章目录1. Unit Interval (UI) / 比特周期 的定义2. 举例说明3. 在眼图 (Eye Diagram) 中的体现4. 示意图(a) 单比特周期(b) 不同速率下的 UI(c) 眼图中的 UI5. 总结1. Unit Interval (UI) / 比特周期 的定义 在高速信号传输与 信号完整性 (SI) 测试中&#xff0c;Unit Inter…

Go语言开发工具全解析

Go 语言的开发工具生态对于提高开发效率、保证代码质量和团队协作至关重要。一套完善的工具链可以帮助开发者&#xff1a;1. 加速编码过程代码模板快速生成常见模式例如使用代码片段(Snippet)快速生成HTTP服务框架自动生成测试用例模板实时语法检查减少错误即时显示类型不匹配错…

[邮件服务器core] 安全通信(SSL/TLS) | OpenSSL库管理 | 服务端安全SECURITY.md

第5章&#xff1a;安全通信&#xff08;SSL/TLS&#xff09; 欢迎回来 在第4章&#xff1a;服务运行中&#xff0c;我们学习了如何启动Dovecot邮件服务器并使其运行。 现在&#xff0c;我们的服务器已经启动并准备好处理电子邮件&#xff0c;但有一个关键问题&#xff1a;我…