Python 数据建模与分析项目实战预备 Day 4 - EDA(探索性数据分析)与可视化

✅ 今日目标

  • 使用 Pandas + Matplotlib/Seaborn 对简历数据进行探索性分析
  • 分析不同字段与目标变量的相关性
  • 通过可视化呈现简历筛选的潜在规律

🧾 一、建议分析内容

🔹 分类字段分析

字段图表建议说明
degree柱状图(分组通过率)分析学历与通过率关系
university_type条形图是否为双一流影响筛选?

🔹 数值字段分析

字段图表建议说明
work_years箱型图 / 小提琴图工龄 vs 通过率分布
project_count, desc_len散点图项目数量/质量是否有利筛选

🔹 多变量交叉分析

  • 使用 hue="pass_screening" 对比不同特征组合
  • 相关系数热力图 sns.heatmap(df.corr())

📦 所需工具

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

✏️ 今日练习任务

编写 eda_visualize.py 实现以下内容:

  • 读取原始数据 resume_data.csv

  • 绘制多个字段与通过率之间的图表

  • 可输出为本地图片或显示图形窗口

    # eda_visualize.py - 简历数据可视化分析脚本import pandas as pd
    import seaborn as sns
    import matplotlib.pyplot as pltplt.rcParams['font.family'] = 'Arial Unicode MS'  # Mac 用户可用
    plt.rcParams['axes.unicode_minus'] = False# 设置风格
    sns.set(style="whitegrid")# 读取数据
    df = pd.read_csv("./data/resume_data.csv")# 设置字体显示中文(可选)
    plt.rcParams['font.family'] = ['Arial Unicode MS']  # macOS
    # plt.rcParams['font.sans-serif'] = ['SimHei']  # Windows
    # plt.rcParams['axes.unicode_minus'] = False# 学历 vs 通过率
    plt.figure(figsize=(6, 4))
    sns.barplot(x="degree", y="pass_screening", data=df)
    plt.title("学历 vs 简历通过率")
    plt.savefig("plot_degree_pass.png")# 学校类型 vs 通过率
    plt.figure(figsize=(6, 4))
    sns.barplot(x="university_type", y="pass_screening", data=df)
    plt.title("学校类型 vs 简历通过率")
    plt.savefig("plot_univ_pass.png")# 工龄分布对通过率影响
    plt.figure(figsize=(6, 4))
    sns.boxplot(x="pass_screening", y="work_years", data=df)
    plt.title("工龄 vs 简历通过情况")
    plt.savefig("plot_work_years_pass.png")# 项目描述长度 vs 筛选通过(散点图)
    plt.figure(figsize=(6, 4))
    sns.scatterplot(x="project_desc_len", y="project_count", hue="pass_screening", data=df)
    plt.title("项目描述长度 & 数量 vs 筛选")
    plt.savefig("plot_project_scatter.png")# 相关系数热力图
    plt.figure(figsize=(10, 6))
    corr = df.corr(numeric_only=True)
    sns.heatmap(corr, annot=True, cmap="YlGnBu")
    plt.title("字段相关系数热力图")
    plt.savefig("plot_corr_heatmap.png")print("✅ 图表已生成并保存为 PNG 文件。")
    

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/89231.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/89231.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣每日一题--2025.7.17

📚 力扣每日一题–2025.7.17 📚 3202. 找出有效子序列的最大长度 II(中等) 今天我们要解决的是力扣上的第 3202 题——找出有效子序列的最大长度 II。这道题是昨天 3201 题的扩展,需要我们处理更一般化的情况。 ⚠️…

github不能访问怎么办

访问:“github.com”国内多个地点网站测速结果_网站测速 - 站长工具访问“github.global.ssl.fastly.net”国内多个地点网站测速结果_网站测速 - 站长工具复制红框中的ip 打开“C:\Windows\System32\drivers\etc\hosts”文件输入: 20.205.243.166 githu…

【深度学习新浪潮】AI在finTech领域有哪些值得关注的进展?

近年来,AI在金融科技(FinTech)领域的应用呈现爆发式增长,尤其在大模型技术突破和政策支持的双重驱动下,多个关键领域取得了显著进展。以下是值得关注的核心方向及具体案例: 一、大模型技术重塑金融服务范式 以DeepSeek为代表的国产大模型通过开源和低成本部署(本地化成…

【中等】题解力扣22:括号生成

题目详情 数字 n 代表生成括号的对数,设计一个函数生成所有可能的并且有效的括号组合。 示例 1: 输入:n 3 输出:[“((()))”,“(()())”,“(())()”,“()(())”,“()()()”] 示例 2: 输入:n 1 输出&#…

【JEECG 组件扩展】JSwitch开关组件扩展单个多选框样式

功能说明:基于JeecgBoot开源框架,JSwitch开关组件扩展,支持单个多选样式。效果展示:使用示例:{field: JSwitch,component: JSwitch,label: JSwitch,},{field: JSwitchCheckBox,component: JSwitch,label: JSwitchCheck…

(转)Kubernetes基础介绍

Kubernetes是用于自动部署、扩展和管理容器化应用程序的开源系统。

vue 播放海康m3u8视频流笔记

1、安装hls.jsnpm i hls 2、使用<el-dialogtitle"监控"top"5vh":visible.sync"dialogVisible"width"30%"><video id"video" style"width:100%;height:300px" controls><sourcetype"applicati…

如何清除 npm 缓存

清除 npm 缓存&#xff1a;利弊分析与操作指南 在使用 Node.js 和 npm 进行项目开发时&#xff0c;我们经常会与 npm install 命令打交道。这个过程中&#xff0c;npm 会在本地建立一个缓存机制&#xff0c;用以存储已下载的包&#xff0c;从而显著提升后续安装的速度。然而&am…

Java学习-----消息队列

消息队列是分布式系统中重要的组件之一。使用消息队列主要是为了通过异步处理提高系统性能和削峰、降低系统耦合性。使用消息队列主要有三点好处&#xff1a;&#xff08;1&#xff09;通过异步处理提高系统性能&#xff08;减少响应所需时间&#xff09;&#xff1a;用户提交请…

玩转Docker | 使用Docker部署TeamMapper思维导图应用程序

玩转Docker | 使用Docker部署TeamMapper思维导图应用程序 前言 一、TeamMapper介绍 TeamMapper简介 TeamMapper功能 二、系统要求 环境要求 环境检查 Docker版本检查 检查操作系统版本 三、部署TeamMapper服务 下载TeamMapper镜像 编辑部署文件 创建容器 检查容器状态 检查服务…

深入解析Linux进程创建与fork机制

目录 一、fork函数初识 二、fork函数返回值 思考&#xff1a; 1. fork函数为何给子进程返回0&#xff0c;而给父进程返回子进程的PID&#xff1f; 2. 关于fork函数为何有两个返回值这个问题 三、写时复制机制 写时拷贝&#xff08;Copy-On-Write&#xff09;机制解析 1.…

【软件开发】主流 AI 编码插件

主流 AI 编码插件1. GitHub Copilot 支持平台&#xff1a;VS Code、Neovim、JetBrains 系列、Visual Studio 优点 深度语料库&#xff1a;基于 OpenAI 的大规模模型训练&#xff0c;能够生成高质量、上下文相关的代码补全。多语言支持&#xff1a;对 Python、JavaScript、TypeS…

实训十一——网络通信原理

补充如何解决IPv4地址不足的问题&#xff1f;使用专用的IPv4地址范围&#xff08;如 10.0.0.0/8、172.16.0.0/12、192.168.0.0/16&#xff09;并通过NAT转换与外部网络通信&#xff0c;能有效节约公网IPv4地址。根据RFC 1918的定义&#xff0c;以下是保留的私有IPv4地址范围&am…

Spring Cloud LoadBalancer 详解

在分布式系统快速发展的当下&#xff0c;服务间的调用日益频繁且复杂。如何合理分配请求流量&#xff0c;避免单个服务节点过载&#xff0c;保障系统的稳定性与高效性&#xff0c;成为关键问题。负载均衡技术便是解决这一问题的重要手段。Spring Cloud LoadBalancer 作为 Sprin…

Linux内核内存管理相关的配置参数

Linux内核内存管理相关的配置参数&#xff08;主要位于/proc/sys/vm/目录下&#xff09;&#xff0c;用于调整内存分配、缓存管理、交换机制、OOM&#xff08;内存溢出&#xff09;策略等核心内存行为。以下是对每个参数的详细解释&#xff1a; admin_reserve_kbytes block_dum…

Web开发 01

先放一下自己写的手敲的第一个网站代码&#xff01;~虽然很简单但还是有点成就感&#xff01;&#xff01;开心&#x1f60a;<!DOCTYPE html> <html><head><title>Title!</title><link rel "stylesheet"href "style.css"…

Redis 生产实战 7×24:容量规划、性能调优、故障演练与成本治理 40 条军规

&#xff08;一&#xff09;写在前面&#xff1a;为什么需要“军规” Redis 在测试环境跑得飞快&#xff0c;一到线上就“莫名其妙”抖动&#xff1b;大促前扩容 3 倍&#xff0c;成本却翻 5 倍&#xff1b;一次主从切换&#xff0c;缓存雪崩导致下游 DB 被打挂&#xff1b;开发…

【DOCKER】综合项目 MonitorHub (监控中心)

文章目录1、项目架构图1.1 架构组件2、实际实施2.1 安装docker2.2 编写dockerfile文件2.2.1 Prometheus2.2.2 node_exporter2.2.3 nginxvts模块2.2.4 nginx_exporeter 服务发现文件2.2.5 maridb dockerfile文件2.2.6 镜像总数2.3 具体操作2.3.1 Prometheus组件2.3.2 nginx组件2…

Java List 集合详解:从基础到实战,掌握 Java 列表操作全貌

作为一名 Java 开发工程师&#xff0c;你一定在项目中频繁使用过 List 集合。它是 Java 集合框架中最常用、最灵活的数据结构之一。无论是从数据库查询出的数据&#xff0c;还是前端传递的参数列表&#xff0c;List 都是处理这些数据的首选结构。本文将带你全面掌握&#xff1a…

SGMD辛几何模态分解 直接替换Excel运行包含频谱图相关系数图 Matlab语言!

SGMD辛几何模态分解 直接替换Excel运行包含频谱图相关系数图 Matlab语言算法近几年刚提出&#xff0c;知网还没几个人用&#xff0c;你先用&#xff0c;你就是创新&#xff01;算法新颖小众&#xff0c;用的人很少&#xff0c;包含分解图、频谱图、相关系数图&#xff0c;效果如…