对于接触算法模型不久的小伙伴来说,建模中海量变量筛选总是让人头疼,不知道如何把握。之前已经介绍了一些变量筛选的方法:变量筛选一张图、【变量筛选】计算类别型变量IV值、KS值、一文囊括风控建模中的变量筛选方法、变量筛选—特征包含信息量。本文详细介绍通过随机森林算法进行变量筛选。
文章目录
-
- 一、什么是随机森林?
- 二、使用随机森林算法进行特征筛选
-
- 1 导入需要的库
- 2 导入数据
- 3 应用随机森林算法训练模型
- 4 打印变量重要性
- 5 筛选出重要性高于某个阈值的特征
- 6 可视化特征重要性
- 7 调节模型参数树深度对变量重要性影响
一、什么是随机森林?
集成学习:通过构建并结合多个机器学习模型来改善模型的性能。通过训练多个模型,并将它们的预测结果进行某种方式的结合,通常可以得到比单一模型更好的预测结果。
Bagging:是Bootstrap Aggregating的缩写,是一种通过结合多个模型的预测结果来减少模型方差的方法。在