1.6、机器学习-决策树模型(金融实战)

决策树是一种基于特征分割的监督学习算法,通过递归分割数据空间来构建预测模型。

1.1、决策树模型基本原理

决策树思想的来源朴素,程序设计中的条件分支结构就是 if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。为了更好理解决策树具体怎么分类的,我们通过以下问题例子?

问题:如何对这些客户进行分类预测?你是如何去划分?我们怎么知道这些特征哪个更好放在最上面,那么决策树的真是划分是这样的。

1.2、决策树模型的建树依据

为了易于生成决策树的理解,下面我们使用“信息熵”来说明决策树的构建。

1.2.1、信息熵

       需要用到信息论专业的知识!此处,通过经典“猜冠军”的例子来引入信息熵:

       我们玩个猜测类游戏,猜猜下图32支球队那支是冠军。并且猜测错误会付出代价,每猜错一次给一块钱,告诉我是否猜对了,那么我需要掏多少钱才能知道谁是冠军呢? (这有个前提是:你不知道任意球队的信息、历史比赛记录、球队实力等)。

为了使代价最小,可以使用二分法来猜测:我可以把球依次编上号,从1到32,然后提问:冠 军在1-16号吗?依次询问,只需要五次,就可以知道结果。

 我们来看这个式子:

  • 32支球队,log32=5比特
  • 64支球队,log64=6比特

香农指出,它的准确信息量应该是,p为每个球队获胜的概率(假设概率相等,都为1/32),我们不用钱去衡量这个代价了,香浓指出用比特:

1.2.1.1、信息熵的定义

信息熵(Information Entropy)是信息论中的专业术语,其标准单位为比特(bit),用于衡量系统混乱程度的指标。对于一个离散随机变量 X,其可能的取值为 x1​,x2…,xn​,应的概率为P(x1​),P(x2​),…,P(xn​),则信息熵 H(X)(单位为比特)定义为:

“谁是世界杯冠军”的信息量应该比5比特少,特点(重要):

  • 当这32支球队夺冠的几率相同时,对应的信息熵等于5比特
  • 只要概率发生任意变化,信息熵都比5比特大

1.2.1.2、总结

信息和消除不确定性是相联系的:当我们得到的额外信息(球队历史比赛情况等等)越多的话,那么我们猜测的代价越小(猜测的不确定性减小)

  • 当所有事件等概率时(最大不确定性),熵值最大,需要更多比特来编码,对应系统混乱,纯度低

  • 当某个事件必然发生时(无不确定性),熵值为0,不需要任何比特编码(因为结果已知),对应系统稳定,纯度高

import numpy as np
# 计算信息熵⽰例
p = np.array([39, 37, 44]) / 120 # 概率分布
entropy = -(p * np.log2(p)).sum()
print(f"信息熵: {entropy:.4f}")

问题: 回到我们之前的贷款案例,怎么去划分?可以利用当得知某个特征(比如是否有房子)之后,我们能够减少的不确定性大小。越大我们可以认为这个特征很重要。那怎么去衡量减少的不确定性大小呢?

1.2.2 、信息增益(树划分依据之一)

1.2.2.1 、定义与公式

特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为:

H(D)-数据集D的信息熵(经验熵):

  • K:目标变量中的类别数量

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/97728.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/97728.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常见中间件的同步算法、CAP 默认倾向及自定义支持情况

文章目录CAP 概念1、比较2、关键说明:CAP 概念 CAP 定理指分布式系统无法同时满足​​一致性(C​​onsistency)、​​可用性(​​A​​vailability)、​​分区容错性(​​P​​artition Tolerance&#xf…

Spring 中处理 HTTP 请求参数注解全解析

在 Spring 框架的 Web 开发中,处理 HTTP 请求参数是一项基础且重要的工作。除了 PathVariable、RequestParam 和 Valid RequestBody 外,还有一些其他注解也用于此目的。本文将对这些注解进行全面的区分和解析,帮助开发者在实际项目中更准确地…

【代码随想录算法训练营——Day11】栈与队列——150.逆波兰表达式求值、239.滑动窗口最大值、347.前K个高频元素

LeetCode题目链接 https://leetcode.cn/problems/evaluate-reverse-polish-notation/ https://leetcode.cn/problems/sliding-window-maximum/ https://leetcode.cn/problems/top-k-frequent-elements/ 题解 150.逆波兰表达式求值、 不能用tokens[i] > "0" &&…

Docker 容器化部署核心实战——镜像仓库管理与容器多参数运行详解

摘要: 在当今云原生技术迅速发展的背景下,Docker 已成为应用容器化的首选工具。本文作为“Docker 容器化部署核心实战:从镜像仓库管理、容器多参数运行到 Nginx 服务配置与正反向代理原理解析”系列的第一篇,将深入探讨 Docker 镜…

ESP8266无法连接Jio路由器分析

我查了一下关于这些 Jio 路由器型号(尤其是 JCOW414 和 JIDU6801)的公开资料,下面是我能拿到的内容 对比这些型号可能带来的问题,以及对你排障的补充建议。 路由器型号 & 公开已知特性 型号已知 / 可查特性和 ESP8266 的潜在…

传智播客--MySQL

DAY01 MySQL入门 第一章 数据库介绍 1.1 什么是数据库 数据存储的仓库,本质上是一个文件系统,作用:方便管理数据的。 1.2 数据库管理系统 数据库管理系统(DataBase Management System, DBMS):指一种操作和管…

[Dify] 实现“多知识库切换”功能的最佳实践

在构建知识驱动的问答系统或 AI 助手时,一个常见需求是:根据用户问题所属领域或上下文,切换使用不同的知识库(Knowledge Base, KB)进行检索。这样可以提升回答的准确性、减少无关内容干扰,在多业务线或多主题应用中尤其有用。 本文将介绍: 为什么要做知识库切换 Dify …

Jenkins运维之路(Jenkins流水线改造Day02-2-容器项目)

上篇文章中已经将绝大部分,Jenkins容器项目打包的相关功能改造完成了,这里在对构建部署后的告警类操作进行一些补充1.流水线告警1.1 安装钉钉插件image-202509151111086851.2 配置钉钉插件image-20250915111235865image-202509151115328291.3 Pipeline钉…

64_基于深度学习的蝴蝶种类检测识别系统(yolo11、yolov8、yolov5+UI界面+Python项目源码+模型+标注好的数据集)

目录 项目介绍🎯 功能展示🌟 一、环境安装🎆 环境配置说明📘 安装指南说明🎥 环境安装教学视频 🌟 二、数据集介绍🌟 三、系统环境(框架/依赖库)说明🧱 系统环…

N1ctf-2025-PWN-ez_heap近队容器的礼仪

ez_heap 保护全开 程序逻辑: 读入0x30的字符串,进行字符串校验:以冒号为标志split,分成四份。最后输入字符串形如: xor 0x111111111111111 validate badmin:p64(xor)b:Junior:111111创建0x180的chunk存放note 结构体…

纵深防御实践:东方隐侠CI/CD安全体系构建全解析

前言:CI/CD安全的必要性 企业上云是近些年的潮流,但是风险如影随形。之前有家电商平台出了个大岔子——半夜自动发新版本的时候,因为流程里没做安全检查,直接导致系统故障,一天就损失了300多万。这还不算完,某银行测试人员通过未授权的自动发布流程把代码推到了生产环境…

2025年渗透测试面试题总结-71(题目+回答)

安全领域各种资源,学习文档,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具,欢迎关注。 目录 2. 渗透测试流程 & 内网渗透经验 3. SQL注入报错利用 4. XSS利用(反射型/DOM型&#xff0…

基于Echarts+HTML5可视化数据大屏展示-茶园大数据平台指挥舱

效果展示&#xff1a;代码结构&#xff1a;主要代码实现 index.html布局 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0&quo…

华为网路设备学习-33(BGP协议 八)BGP路由 选路规则

一、目标与背景BGP路由特性&#xff1a;支持丰富的路径属性选路规则多样注&#xff1a;在BGP路由表中最优选&#xff0c;不一定是路由表中的最优选。有可能存在静态路由或者ospf路由等&#xff0c;其优先级高于BGP路由。二、选路规则概述从1到12&#xff0c;依次对比优先级。一…

深度学习(七):梯度下降

梯度下降&#xff08;Gradient Descent&#xff09;是深度学习中最核心的优化方法之一&#xff0c;它通过迭代更新模型参数&#xff0c;使得损失函数达到最小值&#xff0c;从而训练出性能良好的神经网络模型。 基础原理 损失函数 在深度学习中&#xff0c;损失函数 L(θ) 是衡…

常见岩性分类与油气勘探意义笔记

常见岩性分类与油气勘探意义笔记 相关科普视频可查看【说说岩石的分类-哔哩哔哩】 一、岩石基本分类体系 根据成因&#xff0c;自然界岩石可分为三大类&#xff0c;其中沉积岩与油气勘探关系最为密切&#xff1a; 1. 火成岩&#xff08;岩浆岩&#xff09; 由岩浆冷却凝固…

【Kubernetes】Tomcat 启用 Prometheus 监控指标

之前出过一篇文章关于 “自定义监控指标实现业务 HPA 伸缩” &#xff0c;其中使用了 webapp 应用的指标数据&#xff08;JVM&#xff09;&#xff0c;接下来&#xff0c;这篇文章将介绍如何在通过 Tomcat 部署的 webapp 中启用 Metrics 指标&#xff0c;一起来看看吧&#xf…

JVM 三色标记算法详解!

目录1. 什么是三色标记算法&#xff1f;三种颜色及其含义&#xff1a;2. 基础三色标记算法流程 (非并发)3. 并发场景下的挑战&#xff1a;一致性问题3.1. 漏标 (Missing Live Object) - 最严重的问题3.2. 错标 (Floating Garbage) - 不那么严重的问题4. 屏障机制 (Barrier) - 解…

优化神经网络模型以提升R²值至0.99的全面方案

优化神经网络模型以提升R值至0.99的全面方案 1. 问题分析与背景 在深度学习项目中&#xff0c;提升模型的R&#xff08;决定系数&#xff09;值至0.99是一个具有挑战性的目标&#xff0c;特别是在处理复杂的时间序列数据时。我们的现有模型结合了LSTM层、自注意力机制和MLP处理…

pgNow:一款免费的PostgreSQL监控与性能诊断工具

pgNow 是一款免费的桌面工具&#xff0c;可以为 PostgreSQL 数据库提供快速集中的监控与性能诊断。 pgNow 不依赖代理&#xff0c;无需任何配置&#xff0c;可以帮助开发者或数据库管理员&#xff08;DBA&#xff09;直观地查看数据库的统计信息和关键性能指标。 功能特性 跨平…