Day21_【机器学习—决策树(2)—ID3树 、C4.5树、CART树】

一、ID3 决策树

1. 核心思想

使用信息增益(Information Gain)作为特征选择的标准,递归地构建决策树。

2. 特征选择标准

  • 信息增益(IG)

               

  • 选择使信息增益最大的特征进行划分。

3. 优点

  • 算法简单,易于理解。
  • 能够生成可解释性强的规则。

4. 缺点

  • 只能处理离散(分类)特征,不能直接处理连续特征。
  • 偏向于选择取值较多的特征(因为信息增益会偏高)。

5. 适用任务

仅支持分类任务


二、C4.5 决策树

1. 核心思想

在 ID3 基础上改进,使用信息增益率(Gain Ratio)来克服信息增益的偏向性。

2. 特征选择标准

  • 信息增益率(Gain Ratio)

                    ​​​​​​​      

  • 使用增益率可以惩罚取值较多的特征,减少偏向。

3. 改进点(相比 ID3)

  • ✅ 支持连续特征:通过二分法寻找最佳分割点。
  • ✅ 支持缺失值处理:使用概率分布分配样本。
  • ✅ 引入剪枝(后剪枝):提高泛化能力。
  • ✅ 支持不同代价的误分类(代价敏感学习)。

4. 优点

  • 适用于真实世界复杂数据。

5. 缺点

  • 对噪声敏感。
  • 可能产生较多小分支。

7. 适用任务

仅支持分类任务


三、CART 决策树

1. 核心思想

使用基尼指数(分类)或平方误差(回归)作为划分标准,构建二叉树结构。

2. 特征选择标准

  • 分类任务:使用基尼指数(Gini Impurity)

  • 回归任务:使用最小平方误差(MSE),选择使子集方差最小的划分。

3. 树的结构

  • 必须是二叉树:每个节点只分裂为两个子节点。
  • 对离散特征:相当于进行“是/否”判断。
  • 对连续特征:寻找最优分割阈值。

4. 优点

  • 支持分类和回归两种任务。
  • 输出结果稳定,易于实现。
  • 支持剪枝,防止过拟合。

5. 缺点

  • 二叉树可能导致树较深。
  • 对数据变化敏感(小变化可能导致树结构大变)。

6. 适用任务

✅ 支持分类回归任务。

四、对比

五、小结

信息增益(ID3)、信息增益率值越大(C4.5),则说明优先选择该特征。

基尼指数值越小(cart),则说明优先选择该特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/96025.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/96025.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025计算机视觉新技术

CLIP / BLIP-3 类「视觉-语言大模型」 • 是什么:让网络自己学会“看图说话”,zero-shot 就能分类、检测、检索。 • 能干什么:不写训练代码,直接一句中文 prompt 就把商品图分成 500 类。 • 落地难度:★☆☆&#xf…

[光学原理与应用-431]:非线性光学 - 能生成或改变激光波长的物质或元件有哪些?

要生成或改变激光波长,可依赖增益介质、非线性光学元件、调谐元件及特殊激光器设计,以下是一些关键物质和元件及其作用机制:一、增益介质:波长的“决定者”增益介质是激光器的核心,其原子或分子的能级结构直接决定输出…

接口权限验证有哪些方式

接口权限验证是保障 API 安全的核心机制,常见的方式有以下几类,适用于不同场景和安全需求: 1. 基于令牌(token)的验证 (1)JWT(JSON Web Token) 原理: 服务器验…

Go开发的自行托管代理加速服务:支持Docker与GitHub加速

HubProxy:一站式解决Docker与GitHub访问难题的轻量级代理服务作为开发者,我们经常遇到这些问题:Docker镜像拉取速度慢得让人抓狂,GitHub Release文件下载到一半断开,或者某些境外容器仓库完全无法访问。最近发现的hubp…

用Python打造逼真的照片桌面:从拖拽到交互的完整实现

在这个数字化时代,我们经常需要处理大量的照片和图片文件。今天我将带你一步步实现一个功能丰富的照片桌面程序,让你可以像在真实桌面上摆放照片一样操作数字图片。这个程序使用wxPython构建,支持拖拽、调整大小、删除等交互功能。C:\pythonc…

《sklearn机器学习——模型的持久性》joblib 和 pickle 进行模型保存和加载

模型持久性在 Scikit-learn 中的应用详解 模型持久性的基本概念 在机器学习领域,模型持久性是指将训练好的模型保存到磁盘或数据库中,以便在后续的预测任务中能够直接使用,而无需重新训练模型。这一过程不仅提高了模型的可重用性,…

前端-组件化开发

目录 一.组件化 二.根组件 三.App.vue文件(单文件组件)的三个组成部分 四.普通组件的注册和使用: 1.普通组件的创建 2.局部注册 3.全局注册 🧠 补充小技巧: 💡 关于组件名(第一个参数&…

UNIX/macOS路由表查询原理与实现

🌐 UNIX/macOS路由表查询原理与实现📌 功能全景图 #mermaid-svg-mz6rxrQ73xinNsqc {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-mz6rxrQ73xinNsqc .error-icon{fill:#552222;}#mermaid-svg…

Python爬虫实战:研究Style sheets模块,构建电商平台笔记本电脑销售数据采集和分析系统

1. 引言 1.1 研究背景 在数字经济时代,互联网蕴含的海量数据已成为企业决策与学术研究的核心资源。网络爬虫技术通过自动化请求、解析网页,能够高效提取公开数据,为市场分析、竞品研究等场景提供基础支撑。Python 凭借其丰富的生态库(如 Requests、BeautifulSoup、Pandas…

lesson55:CSS导航组件全攻略:从基础导航条到动态三级菜单与伸缩菜单实现

目录 一、CSS导航条:构建基础导航系统 1.1 语义化HTML结构 1.2 现代Flexbox布局实现 1.3 核心技术解析 二、三级菜单:构建多层级导航体系 2.1 嵌套HTML结构 2.2 多级菜单CSS实现 2.3 关键技术解析 三、伸缩菜单:实现动态交互导航 3…

Linux基础知识(二)

文件操作1. 怎么理解 I/O 重定向? 2. /dev/null 是什么,有什么用途? 3. 解释下列命令的结果:&> /dev/null 、2>> file 4. 怎么理解管道?管道和重定向有什么区别? 5. 在什么情况下需要使用 tee…

Ribbon和LoadBalance-负载均衡

Ribbon和LoadBalance-负载均衡 Ribbon 和 Spring Cloud LoadBalancer (SCL) 都是 Spring Cloud 生态中实现客户端负载均衡的核心组件,但它们在定位、架构、实现和功能上有显著区别。以下是详细的对比分析: ​1. 核心定位与背景​​Ribbon:​​起源于 ​N…

【数据可视化-107】2025年1-7月全国出口总额Top 10省市数据分析:用Python和Pyecharts打造炫酷可视化大屏

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN…

Java中的字符串

字符串 String Java编译器对String类型有特殊处理,可用使用"…"来表示一个字符串。实际上字符串在String内部是通过一个数组表示的。 Java中字符串的一个重要特点是不可变。这种不可变性是通过内部的private final char[]字段,以及没有任何修改…

ragflow MCP 调用核心提示词解析:逻辑闭环与优化方向

大家好~我是你们的提示词工程师朋友,今天想跟大家聊聊开源项目 ragflow 里,MCP调用体系中的两个关键提示词。最近在研究调用工具和提示词撰写之间的平衡态。这俩家伙在信息处理和问题解决里作用不小,既有让人眼前一亮的优势✨&…

从基础功能到自主决策, Agent 开发进阶路怎么走?

Agent 开发进阶路线 基础功能开发 环境感知与数据采集:传感器集成、数据预处理(滤波、归一化)、多模态数据融合简单规则引擎:基于if-then的逻辑决策树、状态机实现基础行为控制基础交互能力:语音识别/TTS集成、基础对话…

ModelScope概述与实战

概述 ModelScope,简称MS,魔搭社区,由阿里巴巴达摩院推出的一个多任务、多模态的预训练模型开放平台,提供模型下载与运行、数据集管理、在线推理体验、开发者社区交流等一站式服务,支持多种主流框架(如PyTo…

人工智能学习:LR和SVM的联系与区别?

LR和SVM的联系与区别?相同点:(1) LR和SVM都可以处理分类问题 ,且— 般都用于处理线性二 分类问题(在改进的情况下可以处理多分类问题)(2)两个方 法都可以增加不同的正则化…

Integer 缓存机制

现象描述 Integer a 100; Integer b 100; System.out.println(a b); // true(引用相同,从缓存中取)Integer c 200; Integer d 200; System.out.println(c b); // false(超出缓存范围,new Integer(200)&#xff0…

生物化学Learning Track(II)——多肽+蛋白质一级结构

本笔记基于杨荣武教授第四版《生物化学》(持续更新)1. 多肽我们在上一节笔记里面介绍了什么是氨基酸,还有氨基酸的种类以及氨基酸基本的一些性质如等电点极性手性等等,这里我们开始介绍氨基酸结合的产物,因为氨基酸是脱…