Datawhale AI数据分析 作业2

学生考试表现影响因素数据集

第一步:数据概览与清洗

Prompt 1:

加载StudentPerformanceFactors.csv文件,并显示前5行数据以及各列的数据类型和非空值数量,检查是否存在缺失值。

 

处理缺失值是数据预处理的重要一步。对于您提到的缺失值:Teacher_QualityParental_Education_LevelDistance_from_Home,它们都是分类型特征

以下是处理这些分类型特征缺失值的几种常见策略:

1. 众数填充 (Mode Imputation)

  • 策略: 用列中出现频率最高的类别来填充缺失值。

  • 优点: 简单易行,不会改变数据分布,适用于分类数据。

  • 缺点: 如果某个类别出现频率远高于其他类别,可能引入偏差;如果缺失值比例较高,可能会过度强调某个类别。

  • 何时使用: 当缺失值占比较小(例如小于5%到10%)且众数能够较好地代表该特征的典型值时。

2. 创建新类别 "Unknown" 或 "Missing"

  • 策略: 将缺失值作为一个新的类别,例如 "Unknown" 或 "Missing"。

  • 优点: 保留了缺失值本身的信息,不会丢失数据。适用于缺失值可能包含特定含义的情况。

  • 缺点: 增加了特征的类别数量,可能在某些模型中增加复杂度。

  • 何时使用: 当缺失值可能不是随机的,而是代表了某种未知的或无法观测到的信息时。例如,如果 Parental_Education_Level 缺失意味着家长不愿提供信息,这本身可能就是一种特征。

3. 基于模型预测的填充 (Model-Based Imputation)

  • 策略: 使用其他特征来预测缺失值。例如,可以使用分类模型(如决策树、K-近邻)来预测缺失的分类特征。

  • 优点: 能够更准确地填充缺失值,考虑了特征之间的关系。

  • 缺点: 更复杂,计算成本高,如果预测模型不准确,可能会引入误差。

  • 何时使用: 当缺失值占比较大,且有其他特征与该缺失特征高度相关时。

4. 删除含有缺失值的行 (Row Deletion)

  • 策略: 直接删除包含缺失值的行。

  • 优点: 简单粗暴,不引入任何新的偏差。

  • 缺点: 如果缺失值较多,可能导致大量数据丢失,减少训练样本,影响模型性能。

  • 何时使用: 当缺失值数量非常少,且对分析结果影响微乎其微时。在您的案例中,Teacher_Quality 缺失78个,Parental_Education_Level 缺失90个,Distance_from_Home 缺失67个,总数据量为6607条。删除这些行会损失少量数据,但如果这些缺失是分散的,总损失的行数可能更多。

考虑到三个缺失特征 (Teacher_Quality, Parental_Education_Level, Distance_from_Home) 都是分类型特征,且缺失值的数量相对较少(占总数据量的1%左右):

首选:众数填充 (Mode Imputation)

原因: 最简单、最直接的方法,且在缺失值占比较小时通常表现良好。它不会显著改变特征的整体分布。

prompt 1.2:

使用众数填充Teacher_Quality、Parental_Education_Level和Distance_from_Home这三列的缺失值,填充完成后,再次检查确认所有缺失值都已处理。

 

第二步:描述性统计分析

Prompt 2:

对数值型特征(例如:Hours_Studied, Attendance, Sleep_Hours, Previous_Scores, Exam_Score)进行描述性统计分析,包括均值、中位数、标准差、最小值和最大值。对于分类型特征(例如:Parental_Involvement, Access_to_Resources, Extracurricular_Activities, Motivation_Level, Family_Income, Teacher_Quality, School_Type, Peer_Influence, Learning_Disabilities, Parental_Education_Level, Distance_from_Home, Gender),计算每个类别的频次。

 第三步:相关性分析

Prompt 3:

计算Exam_Score与所有数值型特征之间的相关系数,并生成一个相关性热力图(heatmap)以可视化它们之间的关系。解释哪些数值型因素与考试成绩正相关或负相关。

 Prompt 4:

使用适当的统计方法(例如ANOVA或t检验,具体取决于分类变量的类别数量)分析分类型特征(例如Parental_Involvement, Access_to_Resources, Teacher_Quality, School_Type, Gender等)与Exam_Score之间的关系。对于每个分类特征,计算不同类别下Exam_Score的平均值,并可视化这些关系(例如使用箱线图或条形图)。

 

第四步:探索性数据分析 (EDA) - 深入洞察

Prompt 5: 

分析Hours_StudiedExam_Score之间的散点图,并根据Parental_Involvement(例如High, Medium, Low)进行颜色编码,观察家长参与度是否对学习时长和考试成绩的关系有调节作用。

Prompt 6: 

比较不同Parental_Education_Level(例如High School, College, Postgraduate)的学生在Exam_Score上的差异,并可视化结果。解释家长教育水平对学生表现的潜在影响。

 Prompt 7:

分析Sleep_HoursExam_Score的影响,并考虑Extracurricular_Activities(是否参与)作为分组变量。可视化结果并解释睡眠和课外活动对考试成绩的综合影响。

 

 

Prompt 8:

探索Motivation_Level(High, Medium, Low)与Exam_Score之间的关系,并根据Internet_Access(Yes/No)进行分组。可视化结果并讨论互联网访问在不同动机水平下对考试成绩的影响。

创建散点图,并根据Internet_Access进行分组,分析Motivation_Level与Exam_Score之间的关系

 

Prompt 9:

分析Tutoring_Sessions(补习课程次数)对Exam_Score的影响,同时考虑Previous_Scores。可视化结果并讨论补习课程在不同基础的学生中是否具有不同的效果。

 

 

第五步:特征工程与预处理

Prompt 10:

对分类变量进行独热编码(One-Hot Encoding)。如果存在任何缺失值,请使用合适的策略进行填充(例如,对于数值型变量使用均值或中位数填充,对于分类型变量使用众数填充)。准备用于机器学习模型的X(特征)和y(目标变量Exam_Score)。

 

第六步:学业表现预测模型构建与评估

Prompt 11:

将数据分为训练集和测试集(例如80%训练,20%测试)。使用线性回归模型预测Exam_Score。在测试集上评估模型的性能,报告R-squared、均方误差(MSE)和均方根误差(RMSE)。

Prompt 12: 

除了线性回归,尝试使用其他回归模型(例如随机森林回归、梯度提升回归)来预测Exam_Score。比较不同模型的性能指标,并选择表现最好的模型。解释为什么所选模型表现更好。

Prompt 13:

利用最佳模型,识别出对Exam_Score影响最大的前N个特征(例如前5或前10个)。解释这些特征的重要性。

第七步:干预策略与建议

Prompt 14:

基于以上分析结果(相关性、EDA洞察、模型特征重要性),提供详细的、可操作的干预策略,以提高学生的学业表现。策略应涵盖以下方面:

  • 学习习惯: 如何促进高效学习,例如鼓励充足的学习时间、定期复习。
  • 家长参与度: 如何鼓励家长更积极地参与学生的学习过程。
  • 资源获取: 如何确保所有学生都能获得必要的学习资源(例如互联网访问、补习)。
  • 身心健康: 如何强调睡眠、体育活动和积极心态的重要性。
  • 学校与教师: 学校和教师可以采取哪些措施来优化学习环境和教学质量。"

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/92654.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/92654.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flowable 与 Spring Boot 深度集成:从环境搭建到平台构建

在前三篇文章中,我们依次认识了 Flowable 的基础概念、用 Modeler 设计流程,以及通过 API 控制流程运行。但在实际项目中,我们更需要将 Flowable 与 Spring Boot 深度融合,构建完整的工作流平台。本文将从环境配置、设计器集成、权…

Jenkins最新版本的安装以及集成Allure生成测试报告

目录 Jenkins的安装 将上面的目录添加到系统环境变量中 为Jenkins配置密码 创建一个用户,用于登录jenkins 为Jenkins安装Allure插件 几个大坑 使用jenkins集成python测试项目 Jenkins的安装 Jenkins官方网址 Jenkins 点击download 点击 past Release选择你想要下载…

Vue3 面试题及详细答案120道 (1-15 )

《前后端面试题》专栏集合了前后端各个知识模块的面试题,包括html,javascript,css,vue,react,java,Openlayers,leaflet,cesium,mapboxGL,threejs&…

基于 GitLab 实践敏捷开发

在软件开发中,**基于 GitLab 实践敏捷开发**,并建立一套**规范的日常管理流程**,不仅可以提升团队协作效率,还能确保平台持续向好迭代、性能稳步提升。以下是一个完整的实践方案,适用于中小型团队或中大型项目&#xf…

黑马点评使用Apifox导入接口测试合集(持续更新、详细图解)

目录 一、前言 二、更新店铺 三、添加秒杀券 四、秒杀下单和秒杀下单user2 一、前言 本博客将持续更新记录黑马点评所有接口测试的导入(学到哪更新到哪),以此博客为完整导入接口测试的合集。第一次在黑马点评项目使用Apifox进行接口测试直接先看我前面的博客&a…

MYOJ_10583:CSP初赛题单7:计算机常识综合练习

更多初赛题单请参见题目整理CSP初赛题目整理题单,谢谢。 注:阅读此题单时建议先看1~5,再试着自己做。 题目描述 1. [J-2010-6][S-2010-6]提出“存储程序”的计算机工作原理的是( )。 A. 克劳德香农 B. 戈登摩尔 C.…

代码随想录day22回溯算法1

文章目录77. 组合216.组合总和III17. 电话号码的字母组合77. 组合 题目链接 文章讲解 class Solution { public:vector<vector<int>> res; // 存储所有的组合vector<int> path; // 当前正在构建的组合// 回溯算法void solve(int n, int k, int st…

【Android】Popup menu:弹出式菜单

Popup menu&#xff1a;弹出式菜单 PopupMenu&#xff0c;弹出菜单&#xff0c;一个模态形式展示的弹出风格的菜单&#xff0c;绑在在某个View上&#xff0c;一般出现在被绑定的View的下方&#xff08;如果下方有空间&#xff09;。 注意&#xff1a;弹出菜单是在API 11和更高版…

20250724-day21

Main Memory Database System&#xff08;MMDB&#xff09;&#xff1a;基于内存的数据库系统 File Database&#xff08;FDB&#xff09;&#xff1a;基于文件的数据库 Netware Database&#xff08;NDB&#xff09;&#xff1a;基于网络的数据库 daemon&#xff1a;守护进程 …

API是什么,如何保障API安全?

API&#xff08;应用程序编程接口&#xff09;是什么&#xff1f; API&#xff08;Application Programming Interface&#xff09;是不同软件系统之间通信的“桥梁”。它定义了应用程序如何请求服务、交换数据或调用功能&#xff0c;无需了解底层实现细节。例如&#xff0c;当…

深度分析Java多线程机制

Java 多线程是掌握高性能、高响应性应用程序开发的关键&#xff0c;它涉及到语言特性、JVM 实现、操作系统交互以及并发编程的核心概念。 核心目标&#xff1a; 充分利用现代多核 CPU 的计算能力&#xff0c;提高程序吞吐量&#xff08;单位时间内处理的任务量&#xff09;和响…

Android热修复实现方案深度分析

热修复的核心目标是在**不发布新版本、不重新安装、不重启应用&#xff08;或仅轻量级重启&#xff09;**的情况下&#xff0c;修复线上应用的 Bug 或进行小范围的功能更新&#xff0c;极大地提升用户体验和问题响应速度。 一、热修复的核心原理 无论哪种方案&#xff0c;其核心…

HTML前端颜色渐变动画完整指南

渐变动画已经成为现代网页设计中不可或缺的元素&#xff0c;它们不仅能为网站增添视觉吸引力&#xff0c;还能显著提升用户体验。通过巧妙运用CSS渐变动画&#xff0c;开发者可以创造出令人印象深刻的动态背景效果&#xff0c;而无需依赖图片或复杂的脚本。 渐变动画的魅力所在…

b-up:Enzo_mi:Transformer DETR系列

1.视频1&#xff1a;self-Attention&#xff5c;自注意力机制 &#xff5c;位置编码 &#xff5c; 理论 代码 注意&#xff1a; q-查询; k-商品标签&#xff1b; v-值&#xff08;具体商品&#xff09; * 不是指乘法&#xff0c;类似概念 a1:相似度&#xff1b; b1:总分 若想…

算法题(179):单调栈

审题&#xff1a; 本题是单调栈的模板题 补充&#xff1a;单调栈 单调栈中的数据始终保持单调递增或单调递减 使用情景&#xff1a;给定一个数组&#xff0c;要求寻找 1.某个数左侧&#xff0c;离他最近且值大于他的数 2.某个数左侧&#xff0c;离他最近且值小于他的数 3.某个数…

CF每日5题(1500-1600)

545C 贪心 1500 题意&#xff1a;给 n 棵树在一维数轴上的坐标 xix_ixi​ &#xff0c;以及它们的长度 hih_ihi​。现在要你砍倒这些树&#xff0c;树可以向左倒也可以向右倒&#xff0c;砍倒的树不能重合、当然也不能覆盖其他的树原来的位置&#xff0c;现在求最大可以砍倒的…

HW蓝队:天眼告警监测分析之Web攻击

Web攻击 信息泄露 敏感数据包括但不限于:口令、密钥、证书、会话标识、License、隐私数据(如短消息的内容)、授权凭据、个人数据(如姓名、住址、电话等)等&#xff0c;在程序文件、配置文件、日志文件、备份文件及数据库中都有可能包含敏感数据 信息收集方法 漏洞分类 备份文…

大腾智能国产3D CAD软件正式上架华为云云商店

深圳市大腾信息技术有限公司&#xff08;以下简称“大腾智能”&#xff09;与华为云达成深度合作&#xff0c;大腾智能CAD软件及配套服务通过了华为云在功能适配、安全可用、稳定高效等方面的严选商品认证&#xff0c;已正式上架华为云云商店&#xff0c;成为华为云云商店的联营…

论文复现-windows电脑在pycharm中运行.sh文件

1.更改终端路径&#xff08;前提&#xff1a;已下载git bash&#xff09;2.授权打开pycharm终端&#xff0c;输入 chmod x 文件名3.根据当前位置&#xff0c;运行.sh文件

开关电源安全保护电路:浪涌保护、过流保护、过压保护

开关电源安全保护电路:浪涌保护、过流保护、过压保护 引言 对于开关电源而言, 安全、可靠性历来被视为重要的性能之一. 开关电源在电气技术指标满足电子设备正常使用要求的条件下, 还要满足外界或自身电路或负载电路出现故障的情况下也能安全可靠地工作. 为此, 须有多种保护措…