从聚类到集成,两种实用算法框架分享

一、K-means:让数据自己 “找组织”

什么是聚类?

聚类属于无监督学习的范畴 —— 简单说就是手里没有标签时,我们要把长得像的样本分到一组。比如给一堆用户数据,不需要提前知道 “高价值用户”“潜在用户” 这些标签,聚类算法能自动帮我们发现数据中隐藏的分组规律。

怎么衡量 “像不像”?

判断样本是否相似,关键看距离度量方式:

  • 欧式距离:最常用的一种,就像平面上两点间的直线距离,扩展到 n 维空间就是各维度差值的平方和开根号。
  • 曼哈顿距离:更像城市里打车的路线,算的是坐标差值的绝对值之和(比如从 (1,2) 到 (3,5),距离就是 | 1-3|+|2-5|=5)。

K-means 的核心步骤

  1. 先定一个 k 值(想分成几类),随机选 k 个样本当初始 “聚类中心”
  2. 算每个样本到这 k 个中心的距离,把样本分到最近的中心那组
  3. 重新计算每组的均值,作为新的聚类中心
  4. 重复第 2、3 步,直到中心位置不再变化,聚类结果就稳定了

怎么评价聚类效果?

可以看CH 指标:这个值越大,说明组内样本越集中(紧凑),组间差异越明显(分散),聚类效果就越好。

优缺点很鲜明

  • 优点:简单快速,对常规数据集很友好
  • 缺点:k 值得自己定(这点很麻烦),对非凸形状的簇不太敏感,计算量会随样本数线性增长

二、集成学习:三个臭皮匠顶个诸葛亮

核心思想

就像做决策时,多听几个专家的意见往往比单听一个更靠谱。集成学习就是把多个 “弱学习器”(性能一般的模型)组合起来,变成一个 “强学习器”(性能更优的模型)。

常见的三种组合套路

  1. Bagging(并行模式)
    代表是随机森林

    • 随机:既随机采样数据,又随机选特征,让每个决策树都有点 “个性”
    • 森林:多棵决策树并行生长,最后投票(分类)或平均(回归)出结果
      优势是能处理高维数据,还能告诉我们哪些特征更重要,训练速度也快(树可以并行生成)。
  2. Boosting(串行模式)
    典型如 AdaBoost:
    从弱学习器开始,每次都根据上一轮的错误调整样本权重 —— 分错的样本会被 “重点关照”(权重提高),下一个学习器会更关注这些难分的样本。最后按每个学习器的表现给权重,组合成强学习器。

  3. Stacking(堆叠模式)
    更 “暴力” 的组合方式:先让各种模型(KNN、SVM、随机森林等)分别输出结果,再把这些结果当新特征,训练一个 “元模型” 来做最终预测,相当于 “用模型的结果再建模”。

组合策略

  • 简单平均 / 加权平均(回归常用)
  • 投票法(分类常用,少数服从多数)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/96720.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/96720.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Elasticsearch:什么是神经网络?

神经网络定义 神经网络(Neural networks)是机器学习(machine learning)的一个子集,旨在模拟生物大脑的结构和功能。也称为人工神经网络 (artificial neural networks - ANNs),神经网络由互连的节点或人工神…

XTDrone——无人机基于2D激光Lidar进行二维运动规划(细节提醒以及相关报错解决)

参考XTDrone文档: 二维激光SLAM(HectorSLAM) 语雀 二维运动规划 语雀 相关ROS依赖库: 本地基于的是20.04的ubuntu系统: sudo apt install -y ros-noetic-move-base \ ros-noetic-costmap-2d \ ros-noetic-dwa-l…

机器学习算法-朴素贝叶斯

朴素贝叶斯分类器就是根据贝叶斯公式计算结果进行分类的模型,“朴素”指事件之间相互独立无影响. 例 如:有如下数据集:Text CategoryA great game(一个伟大的比赛)Sports(体育运动)The e…

RoPE, 2D RoPE, 3D RoPE和复数

旋转位置编码是一种用于Transformer架构中的位置编码方法,从复数的角度来看,其主要利用了复数的乘法性质来实现位置编码,以下作为学习记录:1. 旋转位置编码1)对于输入序列的每个位置的嵌入向量,将嵌入向量分…

Java静态代理与动态代理实战解析

Java静态代理 示例代码 接口: package com.ssg.aop.interfaces;public interface MathCalculator { // 加法public int add(int a, int b); }接口实现类: package com.ssg.aop.impl; import com.ssg.aop.interfaces.MathCalculator;public class Math…

如何排查服务器DNS解析失败的问题

服务器 DNS 解析失败会导致无法访问域名(如 google.com),可能影响服务器的正常运行。以下是排查 DNS 解析失败问题的详细步骤,包括可能的原因、诊断方法和解决方案。1. 原因分析DNS 解析失败通常由以下原因引起:DNS 配…

音视频面试题集锦第 32 期

音视频学习群:https://gjzkeyframe.github.io/posts/wechat-group/ 音视频面试题集锦第 32 期: 1、请详细解释 H.264 编码中的熵编码方式(CAVLC 和 CABAC),它们的区别和适用场景是什么?2、解释 H.264/H.2…

最大矩形+单调栈

题目&#xff1a;思考1&#xff1a; 利用柱形图最大矩形的思想对于矩阵的每一行看作是柱形图的地基对每一行&#xff08;认定为柱形图&#xff09;执行找最大矩形 实现&#xff1a; class Solution { public:int maximalRectangle(vector<vector<char>>& matri…

NewsNow搭建喂饭级教程

大家在自媒体写文章里遇到最难的问题便是查找题材了&#xff0c;随便选择的题材没多少人会去看&#xff0c;平台也不会给流量推送&#xff0c;所以&#xff0c;只有围绕热门题材去进行文章创作&#xff0c;才能得到平台的重点推送以及大家的关注&#xff01; 在做这个功能前&a…

大疆无人机平台 资源开放

一、部署包说明 目前基于大疆上云api开发的平台经过多轮测试&#xff0c;已经有了个稳定的版本&#xff0c;并且有山东滨州、陕西西安、河南郑州、上海、广东深圳、广东广州、宁夏以及安徽等各地的用户使用在公路巡检、森林防火、电力巡查等行业中。 下面将会先将部署包免费开…

恶劣天气下漏检率↓79%!陌讯多模态时序融合算法在道路事故识别的实战优化

原创声明 本文为原创技术解析文章&#xff0c;核心技术参数与架构设计引用自 “陌讯技术白皮书&#xff08;道路事故识别专项版&#xff09;”&#xff0c;禁止任何形式的抄袭与转载。文中代码示例、性能数据均来自实测验证&#xff0c;技术描述已完成差异化重写&#xff0c;不…

visual studio编译的软件查找所依赖的运行库方法

使用visual studio编译生成的exe软件&#xff0c;在单独运行的时候&#xff0c;总是会提示vs运行库找不到&#xff0c;比如vcruntime140.dll&#xff0c;msvcp140d.dll等找不到&#xff0c;此时如果在开发电脑中查找&#xff0c;会找出一堆各种版本的同名字动态库来&#xff0c…

ARINC 825板卡的应用

ARINC概览AEEC&#xff08;航空电子工程委员会&#xff09;是SAE ITC&#xff08;SAE行业技术联盟&#xff09;的下属机构之一&#xff0c;旨在为航空业制定标准。SAE ITC下设多个委员会和分委员会&#xff0c;各委员会设工作组负责制定航空电子设备和系统的各种标准。其中&…

试析微剧《云端爱人》:AI时代的数字爱情寓言与情感觉醒

《云端爱人》作为一部聚焦人工智能与人类情感关系的短剧&#xff0c;其文本价值远超普通都市爱情题材&#xff0c;可视为数字化时代的情感寓言。以下从社会镜像、叙事张力、哲学思辨三个维度展开深度解析&#xff1a;一、「赛博恋爱」的社会预演&#xff1a;当代人的情感代偿机…

多线程下单例如何保证

系列文章目录 文章目录系列文章目录一、方法1、懒汉式双重检查锁2、饿汉式静态初始化3、使用静态内部类&#xff08;懒汉式的一种变体&#xff09;4、使用 AtomicReference5、使用依赖注入框架&#xff0c;Spring一、方法 懒汉式&#xff1a;延迟加载&#xff0c;第一次调用get…

Java的数字计算

目录 一、基本数据类型 二、包装类 三、精确计算&#xff1a;BigDecimal 四、大整数&#xff1a;BigInteger 五、实际应用示例&#xff1a;RSA 加密算法核心计算 一、基本数据类型 这是进行数字计算最高效的方式&#xff0c;直接在栈上分配内存。它们分为整数型和浮点型。…

手写MyBatis第32弹-设计模式实战:Builder模式在MyBatis框架中的精妙应用

&#x1f942;(❁◡❁)您的点赞&#x1f44d;➕评论&#x1f4dd;➕收藏⭐是作者创作的最大动力&#x1f91e;&#x1f496;&#x1f4d5;&#x1f389;&#x1f525; 支持我&#xff1a;点赞&#x1f44d;收藏⭐️留言&#x1f4dd;欢迎留言讨论&#x1f525;&#x1f525;&am…

小白成长之路-k8s原理(一)

文章目录前言一、k8s组件1.1master部分1.2node节点二、网络2.1网络模型2.2CNI2.3流程2.4网络解决方案2.5网络模式三、资源清单3.1概述3.2常见的资源3.3资源清单的编写四、Pod4.1概念图4.2pause4.3概述4.4pod生命周期4.5pod探针4.6钩子4.7pod控制器1.RC 控制器2.RS控制器3.deplo…

木筏求生 PC/手机双端 单机+联机(Raft)免安装中文版

网盘链接&#xff1a; 木筏求生 免安装中文版 名称&#xff1a;木筏求生 PC/手机双端 单机联机&#xff08;Raft&#xff09;免安装中文版 描述&#xff1a; 无论是独自一人还是与朋友一起&#xff0c;你的任务是在危险的海洋中度过一场史诗般的海洋冒险 &#xff01;收集…

vue中v-show 和 v-if 指令的区别

v-show 和 v-if 是 Vue.js 中两个非常重要的指令&#xff0c;都用于条件性地显示或隐藏元素&#xff0c;但它们的实现方式和适用场景有本质区别。 简单来说&#xff0c;最核心的区别是&#xff1a; v-if 是 “真正的”条件渲染&#xff0c;它会确保在切换过程中条件块内的事件监…