Datawhale AI数据分析 作业

一、 贷款批准预测数据集

1. 数据探索与理解

prompt 1:

这是训练数据,目的是贷款批准预测数据集上训练的深度学习模型生成的数据,旨在使用借款人信息预测贷款批准结果,它通过模拟真实贷款审批场景,帮助金融机构评估借款人风险。
请展示训练基本信息(数据维度、特征类型、缺失值情况)

prompt 2:

请生成数据集的描述性统计摘要 

prompt 3:

在这些变量中,请识别数值型和分类型变量 

prompt 4:

请检查目标变量(贷款批准状态)的分布情况 

 prompt 5:

请分析各特征的数据质量和异常值

 prompt 6:

prompt 7:

请问要如何处理这些异常值?

prompt 8:

请按如下方法处理:

1. person_age(年龄)

当前方法: 设定18-100岁范围,超出部分删除或替换 评估: ✅ 合适,但需要优化 改进建议:

  • 保留18-85岁作为更合理的范围(考虑贷款业务实际)

  • 对于异常值建议使用中位数替换而非删除,避免数据丢失

  • 可以创建异常值标识特征,保留异常信息

2. person_income(收入)

当前方法: 分位数截断 + 对数变换 评估: ✅ 很好的方法 改进建议:

  • 建议使用99%分位数进行截断,保留更多正常的高收入样本

  • 对数变换前建议先处理0值(加小常数或使用log1p)

  • 可以考虑按地区或行业分层处理,避免一刀切

3. person_emp_length(工作年限)

当前方法: 设定0-50年范围 评估: ✅ 合适,但可以更精细 改进建议:

  • 考虑与年龄的逻辑关系:工作年限不应超过(年龄-16)

  • 对于负值和缺失值,建议使用0填充(表示无工作经验)

  • 创建工作经验分组特征(0年、1-5年、6-15年、16+年)

4. loan_amnt(贷款金额)

当前方法: 业务规则 + 分位数截断 评估: ✅ 合适 改进建议:

  • 结合收入水平设定动态上限(如不超过年收入的10倍)

  • 考虑贷款类型的影响(不同类型贷款金额范围不同)

  • 使用99.5%分位数截断,保留合理的大额贷款

5. loan_int_rate(贷款利率)

当前方法: 设定合理范围 + 分位数截断 评估: ✅ 合适,需要结合市场情况 改进建议:

  • 根据数据收集时间设定历史合理范围(如2%-30%)

  • 考虑利率与风险等级的关系,异常高利率可能有业务含义

  • 可以标记而非直接截断极端利率

6. loan_percent_income(贷款占收入比例)

当前方法: 设定0%-100%范围 评估: ⚠️ 需要修正 改进建议:

  • 关键问题:贷款占收入比例可能合理超过100%(如购房贷款)

  • 建议设定0%-500%的范围,或使用99%分位数截断

  • 重点关注0值的处理(可能表示高收入或数据错误)

7. cb_person_cred_hist_length(信用历史长度)

当前方法: 保持原状 评估: ✅ 合适 改进建议:

  • 检查是否存在负值或超过年龄的情况

  • 建议最大值不超过(年龄-18)岁

 

2. 特征分析与可视化

prompt 9:

请针对借款人特征进行单变量分析:

年龄分布及其与贷款批准的关系

收入水平分布(包括年收入、月收入等相关指标)

工作年限分布及稳定性分析

房屋拥有情况分析

其他重要特征的分布情况

prompt 10:

请做双变量分析

各特征与贷款批准结果的相关性分析
收入与年龄的交互效应分析
工作年限与收入的关系
房屋拥有情况对批准率的影响
使用相关性热力图展示特征间关系

 

prompt 11:

现在引入test数据集,请查看两个数据集的基本信息(形状、特征、数据类型) 检查train和test的特征一致性,确认test集是否包含目标变量

 prompt 12:

prompt 12:

基于您的情况,下一步的关键任务是解决特征一致性问题。这是一个严重的数据预处理问题,必须立即解决。
🚨 当前问题分析
核心问题: Train集有19列,Test集只有12列,说明:

Train数据已经进行了特征工程(衍生了7个新特征)
Test数据还是原始状态
两个数据集无法直接用于建模

请立即执行下面的步骤
步骤1:诊断特征差异
首先明确哪些是原始特征,哪些是衍生特征:
步骤2:重新统一处理
关键决策: 需要重新对两个数据集进行同步的特征工程
有两种选择:
选择A(推荐): 重新加载原始train数据,与test数据一起处理
选择B: 基于现有train数据,反向工程出test数据的特征
步骤3:创建统一处理流程
确保所有特征工程步骤在两个数据集上完全相同地执行
⚠️重要提醒
绝对不能做的事:

不能删除train中的衍生特征来"匹配"test
不能单独为test创建不同的特征工程逻辑
不能忽略这个问题直接建模

必须做的事:

确保特征工程的完全一致性
验证处理后两个数据集的特征匹配
检查数据分布的一致性

请先执行特征对比分析,然后我们根据具体的特征差异来制定详细的修复方案。这一步完成后,才能继续进行EDA和建模工作。

 

 prompt 13:

请验证数据分布的一致性

prompt 14:

请继续对train数据进行多变量分析

不同特征组合对贷款批准的综合影响
识别高风险和低风险借款人群体
分析特征交互作用

3. 风险评估分析 

prompt 15:

现在进行风险评估分析,请重点分析以下风险因素:

识别导致贷款拒绝的主要因素
分析不同收入水平的批准率差异
评估年龄对贷款批准的影响模式
工作稳定性(工作年限)的风险指示作用
资产状况(房屋拥有)的风险缓解效果

4. 机器学习建模

 prompt 16:

为了构建贷款批准预测模型,请先进行数据预处理

处理缺失值(填充策略选择和justification)
特征编码(分类变量处理)
特征标准化/归一化
特征选择和工程

prompt 17:

请进行特征选择和工程

 

prompt 18:

现在进行模型开发,数据集划分train集和test集
请尝试以下算法:

逻辑回归(baseline模型)
随机森林
梯度提升树(如XGBoost、LightGBM)
支持向量机
神经网络

prompt 19:

尝试使用XGBoost模型

prompt 20:

继续使用LightGBM模型

prompt 21:

在现有的模型中,请进行模型评估,
使用适当的评估指标(准确率、精确率、召回率、F1-score、AUC-ROC)
生成混淆矩阵和分类报告
绘制ROC曲线和PR曲线
交叉验证评估模型稳定性

 

 

prompt 22:

请总结上面的分析结果,
请做结果展示并确保分析结果包含:

清晰的数据可视化图表(使用seaborn/matplotlib)
详细的统计分析结果解释
模型性能对比表格
特征重要性排序和解释
商业价值和实施建议

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/89681.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/89681.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

100条常用SQL语句

一、基本查询语句 查询所有数据: SELECT * FROM 表名; 查询特定列: SELECT 列名1, 列名2 FROM 表名; 条件查询: SELECT * FROM 表名 WHERE 条件; 模糊查询: SELECT * FROM 表名 WHERE 列名 LIKE ‘模式%’; 排序查询: …

Visual Studio编译WPF项目生成的文件介绍

文章目录一、Summarize主要输出文件1. **可执行文件 (.exe)**2. **程序集文件 (.dll)**3. **PDB 文件 (.pdb)**资源与配置文件1. **XAML 编译文件 (.baml)**2. **资源文件 (.resources)**3. **应用程序配置文件 (.config)**依赖文件1. **引用的 NuGet 包**2. **引用的框架程序集…

「Chrome 开发环境快速屏蔽 CORS 跨域限制详细教程」*

Chrome 开发环境快速屏蔽 CORS 跨域限制【超详细教程】 📢 为什么需要临时屏蔽 CORS? 在日常前后端开发中,我们经常会遇到这样的报错: Access to fetch at https://api.example.com from origin http://localhost:3000 has been …

Linux命令大全-df命令

一、简介df(英文全拼:display free disk space) 命令用于显示或查看文件系统(或磁盘)的空间使用情况,包括总容量、已用空间、可用空间、使用率和挂载点等信息。二、语法df [选项]... [文件]...参数参数说明…

《程序员修炼之道》第一二章读书笔记

最近在看《程序员修炼之道:通向务实的最高境界》这一本书,记录一下看书时的一点浅薄感悟。务实程序员不仅是一种技能水平的体现,更是一种持续修炼、不断反思并主动承担责任的过程。对自己的行为负责是务实哲学的基石之一。在重构CRM时面对文档…

ArcGISPro应用指南:使用ArcGIS Pro创建与优化H3六边形网格

H3 是由 Uber 开发的一个开源地理空间分析框架,旨在通过将地球表面划分为等面积的六边形网格来支持各种地理空间数据分析任务。每个六边形单元在 H3 系统中都有一个独一无二的标识符,即 H3 指数。这种网格系统不仅能够覆盖全球,而且适用于任何…

xss-dom漏洞

目录 靶场搭建 第一关 第二关 第三关 第四关 第五关 第六关 第七关 第八关 靶场下载地址:https://github.com/PwnFunction/xss.pwnfunction.com 靶场搭建 将文件用clone 下载到ubuntu, 然后进入 cd xss.pwnfunction.com/hugo/ 这个目录下 hu…

BPE(字节对编码)和WordPiece 是什么

BPE(字节对编码)和WordPiece 是什么 BPE(字节对编码)和WordPiece 是自然语言处理中常用的子词分词算法,它们通过将文本拆分为更小的语义单元来平衡词汇表大小和表达能力。 BPE(Byte Pair Encoding,字节对编码) 原理 初始化:将文本按字符(或Unicode字节)拆分为最小…

Java行为型模式---状态模式

状态模式基础概念状态模式(State Pattern)是一种行为型设计模式,其核心思想是允许对象在内部状态发生改变时改变它的行为,对象看起来好像修改了它的类。状态模式将状态相关的行为封装在独立的状态类中,并将状态转换逻辑…

重学Framework Input模块:如何实现按键一键启动Activity-学员作业

需求背景: 近来vip群里学员朋友有问道一个需求,大概需求就是他们做TV的Framework开发,想要遥控器有一个新定义的儿童节目按键,想要实现这个按键按下后就跳转到儿童节目的Activity。需求拆解及作业要求: 针对上面需求&a…

bmp图像操作:bmp图像保存及raw与bmp转换

1. 保存bmp图像&保存一张正弦图像到D:\1.bmp /********************************************** * fileName bmpinc.h * brief 对bmp文件的操作,包括: * - saveBmp:保存bmp文件 * - Save…

SpringAI——提示词(Prompt)、提示词模板(PromptTemplate)

Prompt 是引导 AI 模型生成特定输出的输入格式,Prompt 的设计和措辞会显著影响模型的响应。最开始Prompt只是单纯的文本文字,后面可以包含占位符,可以识别消息的角色。比如包含占位符的Prompt,也就是我们讲的消息模板(PromptTemplate)&#x…

【深度学习笔记 Ⅰ】5 参数和超参数

在深度学习中,参数(Parameters) 和 超参数(Hyperparameters) 是模型训练中两个核心概念,它们共同决定了模型的性能,但作用方式和优化方法截然不同。以下是详细对比与解析:1. 参数&am…

Linux 阻塞等待框架

在 Linux 设备驱动开发中,阻塞机制 是处理资源暂时不可用(如设备未准备好数据、缓冲区满等)的核心手段。驱动程序可以将被阻塞的进程设置成休眠状态,然后,在资源可用后,再将该进程唤醒。 在 Linux 驱动开发…

PCIe RAS学习专题(3):AER内核处理流程梳理

目录 一、AER内核处理整体流程梳理 二、AER代码重要部分梳理 1、AER初始化阶段 2、中断上半部 aer_irq 3、中断下半部 aer_isr 3.1、aer_isr_one_error 3.2、find_source_device 3.3、aer_process_err_devices 3.4、handle_error_source 3.5、pcie_do_recovery 整体逻…

​HAProxy负载均衡集群概述

前言: 在现代分布式系统中,负载均衡和高可用性是保障服务稳定性和性能的关键技术。HAProxy 作为一款高性能的 TCP/HTTP 负载均衡器,凭借其轻量级、高并发处理能力和灵活的配置机制,成为构建高可用架构的核心组件之一。通过智能的流…

ELN:生物医药科研的数字化引擎——衍因科技引领高效创新

在生物医药研究领域,实验数据的准确记录与管理是科研成败的关键。想象一个场景:某顶尖医学院实验室,研究员小张正为一项抗癌药物实验焦头烂额。纸质记录本中,数据混乱、协作困难,导致实验重复率高达20%。引入衍因科技的…

暑假---作业2

学习目标&#xff1a;xss-1abs 1-8关python美现自动化布尔自注的2、代码进行优化(二分查找)学习内容&#xff1a;1.xss-1abs 1-8关1<h2 align"center">欢迎用户test</h2>2 <script> alert (1)</script&gt<center> <form action&…

【Tensor数据转换】——深度学习.Torch框架

目录 1 Tensor与Numpy 1.1 张量转Numpy 1.2 Numpy转张量 1 Tensor与Numpy 1.1 张量转Numpy 调用numpy()方法可以把Tensor转换为Numpy&#xff0c;此时内存是共享的。 使用copy()方法可以避免内存共享 import torch import numpy as np# tensor转numpy:numpy() def test0…

基于Tranformer的NLP实战(5):BERT实战-基于Pytorch Lightning的文本分类模型

文本分类作为自然语言处理中的基础任务&#xff0c;能够帮助我们将海量医学摘要自动归类到具体疾病领域中。本文将基于NVIDIA NeMo框架&#xff0c;构建一个用于医学疾病摘要分类的深度学习应用&#xff0c;支持将摘要划分为三类&#xff1a;癌症类疾病、神经系统疾病及障碍、以…