机器学习01——机器学习概述

上一章:机器学习核心知识点目录
下一章:机器学习02——模型评估与选择
机器学习实战项目:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备

文章目录

      • 一、参考书推荐
      • 二、机器学习的基本概念
        • (一)核心定义
      • 三、机器学习的基本术语
        • (一)数据相关术语
        • (二)任务类型
        • (三)学习类型(按样本是否有标记)
        • (四)泛化能力
        • (五)归纳偏好
      • 四、机器学习系统的基本流程
      • 五、机器学习的发展历程
      • 六、机器学习的应用领域
      • 七、机器学习的参考资源
        • (一)学术会议与期刊

一、参考书推荐

  1. 《机器学习》,周志华著,清华大学出版社,2016.1(第一版第35次印刷,2020年11月);
  2. 《机器学习理论导引》,周志华、王魏等著,机械工业出版社,2020.6;
  3. Machine Learning: A First Course for Engineers and Scientists,by Andreas Lindholm etc, Cambridge University Press, 2022。

二、机器学习的基本概念

(一)核心定义

机器学习致力于研究如何通过计算手段,利用经验改善系统自身性能,其核心研究内容是从数据中产生“模型”的“学习算法”——即通过算法让计算机从数据中学习规律,进而对新数据做出判断或预测。

三、机器学习的基本术语

(一)数据相关术语
  • 样本:指待处理的个体,是机器学习的基本处理单位。
  • 特性:指一类样本构成的集合中所有样本的共同属性,也可理解为描述样本的“特征”(如“瓜”的色泽、根蒂等)。
  • 示例数据:文档中以“瓜”为例,展示了包含编号、色泽、根蒂、敲声、“好瓜”标签的数据表格,其中“色泽”“根蒂”等是样本的特征,“好瓜”是预测目标(标签)。
(二)任务类型

根据预测目标的性质,机器学习任务可分为:

  • 分类:预测离散值。例如“好瓜/坏瓜”属于二分类,“冬瓜/南瓜/西瓜”属于多分类;
  • 回归:预测连续值。例如预测“瓜的成熟度”(0-100的连续数值);
  • 聚类:无需标记信息,自动将样本划分为不同群体(如根据瓜的特征将其分为不同品类,无需提前定义“好瓜”“坏瓜”)。
(三)学习类型(按样本是否有标记)
  • 监督学习:使用带标记的样本(如已知“好瓜/坏瓜”标签的数据),主要任务为分类和回归;
  • 无监督学习:使用无标记的样本(如只有瓜的特征,没有“好瓜”标签),主要任务为聚类;
  • 半监督学习:结合有标记和无标记样本,适用于标记数据稀缺的场景(如少量已知“好瓜”标签,大量未知标签的瓜数据)。
(四)泛化能力
  • 定义:指模型适用于“新样本”的能力,而非仅在训练数据上表现良好;
  • 假设前提:通常假设样本服从未知分布D,且样本独立同分布(i.i.d.)——即新样本与训练样本来自同一分布,且相互独立;
  • 关键影响:一般来说,训练样本数量越多,越容易学到具有强泛化能力的模型(避免“过拟合”,即模型只记住训练数据,无法应对新数据)。
(五)归纳偏好
  • 定义:学习算法在选择模型时对某种类型假设的“偏好”,可理解为算法的“价值观”;
  • 典型原则:“奥卡姆剃刀”是常用原则,即“若多个假设与观察一致,选择最简单的那个”(如用直线拟合数据比用复杂曲线更优先,前提是两者均符合训练样本);
  • 重要结论:“没有免费的午餐”——不存在对所有问题都最优的算法,需根据具体问题选择合适的归纳偏好。

四、机器学习系统的基本流程

机器学习系统的训练过程主要包括以下环节:

  1. 信息获取:通过传感器将光、声音等物理信息转化为电信息(如将图像、声波、心电图等转化为计算机可处理的数据);
  2. 预处理:对数据进行清洗和转换,包括A/D转换(模拟信号转数字信号)、二值化、平滑、滤波、增强等,目的是去除噪声、统一格式;
  3. 特征选择:从原始特征中筛选出对预测任务最关键的特征(如判断“好瓜”时,“根蒂”可能比“色泽”更重要);
  4. 分类器设计:选择或设计学习算法,基于处理后的 data 训练模型(如用决策树、神经网络等算法训练“好瓜判断模型”);
  5. 分类决策:用训练好的模型对新样本进行预测(如判断一个未知瓜是否为“好瓜”)。

五、机器学习的发展历程

机器学习的发展可大致分为三个阶段,各阶段核心方法如下:

  • 推理期(20世纪60-70年代):以符号主义学习为主,如决策树、基于逻辑的学习(依赖手动设计规则);
  • 知识期(20世纪80-90年代):连接主义学习(如早期神经网络)和统计学习(如支持向量机、核方法)兴起,开始结合数据驱动;
  • 学习期(21世纪以来):连接主义学习复兴并发展为深度学习(深度神经网络),依托大数据和算力突破,在复杂任务(如图像、语音)中表现优异。

六、机器学习的应用领域

机器学习已广泛应用于多个领域,包括:

  • 识别任务:字符识别(印刷体/手写体OCR)、指纹识别、人脸识别、车牌识别等;
  • 医疗健康:心电图/脑电图分析、癌细胞识别、疾病诊断(如肝炎专家系统);
  • 环境与资源:遥感图像处理(资源卫星、气象卫星)、环保检测(大气、水源监测);
  • 工业与制造:产品质量自动检测、智能制造;
  • 人机交互:语音识别(如电话号码自动查询)、机器翻译;
  • 其他领域:智能交通、智慧农业、军事应用等。

七、机器学习的参考资源

(一)学术会议与期刊
  • 顶级会议:机器学习领域包括ICML、ICLR、UAI等;模式识别与计算机视觉领域有相关专业会议;
  • 核心期刊:如IEEE Transactions on Pattern Analysis and Machine IntelligenceJournal of Machine Learning ResearchMachine Learning(Elsevier)等。

上一章:机器学习核心知识点目录
下一章:机器学习02——模型评估与选择
机器学习实战项目:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/96268.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/96268.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Shell编程:检测主机ip所在网段内其他在线ip

一、逻辑设计获取本机 ip 及 网段循环检测网段内所有 ip判断 ping 结果,符合条件的输出相关信息二、代码展示#!/bin/bash#获取本机ip local_iphostname -I #local_ipip addr| grep "inet "|grep -v 127.0.0.1| awk {print $2}#获取本机网段 networkecho $…

Windows安装Chroma DB

安装步骤 安装python 3.8或以上的版本创建虚拟环境:python -m venv chroma_env激活虚拟环境:.\chroma_env\Scripts\activate安装Chroma DB:pip install chromadb(可选)安装扩展功能:pip install sentence-transformers pypdf tikt…

李彦宏亲自说

昨天,李彦宏亲自说:百度的数字人直播以假乱真,很多人是看不出这是数字人,而且转化率很高”这几个月百度一直在推“数字人”不再强调“大模型”了。数字人是AI落地最适合企业的一款产品,一般用于客服、面试、直播带货等…

JS 中bind、call、apply的区别以及手写bind

1.作用call、apply、bind作用是改变函数执行的上下文,简而言之就是改变函数运行时的this指向那么什么情况下需要改变this的指向呢?下面举个例子var name "lucy"; var obj {name: "martin",say: function () {console.log(this.nam…

vue2(7)-单页应用程序路由

1.单页应用程序如 单页:网易云,多页:京东单页应用程序,之所以开发效率高,性能高,用户体验好最大的原因是:页面按需更新 要按需更新,就要明确访问路径和组件的关系这时候就要用…

vue中通过heatmap.js实现热力图(多个热力点)热区展示(带鼠标移入弹窗)

直接上完整代码&#xff01;记录实现方式 注意heatmap.min.js需要通过heatmap.js提供的下载地址进行下载&#xff0c;地址放在下边 url&#xff1a;heatmap GIT地址 <template><div class"heatmap-view" ref"heatmapContainer"></div&g…

配置Kronos:k线金融大模型

github地址 网页btc预测demo使用的Kronos-mini模型 huggingface的仓库 文章目录配置环境安装python环境获取市场数据的库通过webui使用example中的例子prediction_example.py补充说明根据原例优化的代码CryptoDataFetcher单币对多周期预测配置环境 使用conda的环境. 首先进行换…

【Deep Learning】Ubuntu配置深度学习环境

【start: 250715】 文章目录ubuntu与深度学习安装cuda查看显卡信息&#xff08;nvidia-smi&#xff09;升级驱动下载cuda安装conda安装anaconda默认指向自己的conda初始化conda确认 conda.sh 被加载安装cuda-toolkit直接安装cuda-toolkit&#xff08;高级的&#xff09;安装高于…

车载数据采集(DAQ)解析

<摘要> 车载数据采集&#xff08;DAQ&#xff09;软件模块是现代汽车电子系统的核心组件&#xff0c;负责实时采集、处理、记录和传输车辆运行数据。本文系统解析了DAQ模块的开发&#xff0c;涵盖其随着汽车智能化演进的历史背景&#xff0c;深入阐释了信号、协议、缓存等…

强化学习框架Verl运行在单块Tesla P40 GPU配置策略及避坑指南

1.前言 由于比较穷,身边只有1块10年前的Tesla P40 GPU卡(2016年9月发布),想利用起来学习强化学习框架Verl。程序员学习开源代码,大部分人的第一直觉不是分析模块组成,而是跑起来试试,然后去debug一下后面的运行逻辑。 由于在官方部署指导文档中并未指明跑通Verl的最低…

leetcode169.多数元素

题目描述给定一个大小为 n 的数组 nums &#xff0c;返回其中的多数元素。多数元素是指在数组中出现次数 大于 ⌊ n/2 ⌋ 的元素。你可以假设数组是非空的&#xff0c;并且给定的数组总是存在多数元素。题目解法博耶-摩尔多数投票算法&#xff08;英语&#xff1a;Boyer–Moore…

基于机器学习的P2P网贷平台信用违约预测模型

使用平台提供的借款人信息&#xff08;年龄、收入、历史信用等&#xff09;和借款信息&#xff0c;构建一个二分类模型来预测借款人是否会违约。重点解决类别不平衡问题和模型可解释性。逻辑回归、随机森林、XGBoost、SMOTE过采样、模型评估&#xff08;AUC, KS, F1-Score&…

豆瓣网影视数据分析与应用

源码链接&#xff1a;点击下载源码 相关文档&#xff1a;点击下载相关文档 摘 要 随着互联网的快速发展&#xff0c;豆瓣网作为一个综合性的影视评分和评论平台&#xff0c;积累了大量的用户数据&#xff0c;这些数据为影视分析提供了丰富的素材。借助Hadoop这一大数据处理框…

四、计算机网络与分布式系统(中)

一、局域网与广域网1、局域网&#xff08;1&#xff09;定义将有限地理范围内的多台计算机通过传输媒体连接&#xff0c;借助网络软件实现设备间通信与资源共享的通信网络&#xff08;2&#xff09;特点1.地理范围小&#xff1a;通常为数百米至数公里内。2.传输速率高&#xff…

Python 面向对象实战:私有属性与公有属性的最佳实践——用线段类举例

描述 在绘图软件、GIS、CAD 或简单的图形编辑器中&#xff0c;线段&#xff08;Segment&#xff09;是非常基础的对象。每个线段有两个端点&#xff08;x1,y1&#xff09;和&#xff08;x2,y2&#xff09;。在实现时我们通常希望&#xff1a; 封装端点数据&#xff08;防止外部…

流式细胞术样本处理全攻略(一):组织、血液、体液制备方法详解

摘要 流式细胞术作为多参数、高通量的细胞分析技术,在细胞表型鉴定、免疫反应研究、疾病机制探索及药物效果评估中发挥关键作用。而样本制备是流式实验成功的核心前提,需将不同来源样本处理为单颗粒悬液,并最大程度减少细胞死亡与碎片干扰。本文针对组织、外周血 / 骨髓、体…

【C#】理解.NET内存机制:堆、栈与装箱拆箱的底层逻辑及优化技巧

文章目录前言一、栈与堆1.1 栈&#xff08;Stack&#xff09;1.1.1 基本信息1.1.2 特点1.2 堆&#xff08;Heap&#xff09;1.2.1 基本信息1.2.2 特点1.3 从代码中窥见堆栈二、装箱与拆箱2.1 装箱2.2 拆箱2.3 如何避免不必要的装箱与拆箱2.3.1 泛型集合2.3.2 泛型参数总结前言 …

人工智能学习:Transformer结构中的子层连接(Sublayer Connection)

Transformer结构中的子层连接(Sublayer Connection) 一、子层连接介绍 概念 子层连接(Sublayer Connection),也称为残差连接(Residual Connection),是Transformer模型中的一个关键设计,用于将多个子层(如自注意力层和前馈全连接层)组合在一起。它通过残差连…

解锁Roo Code的强大功能:深入理解上下文提及(Context Mentions)

在AI使用中&#xff0c;我们经常需要AI或AI工具描述代码中的某个具体部分。但如果工具能直接“看到”所指的代码、错误信息甚至终端输出&#xff0c;协作效率会不会大幅提升&#xff1f;这正是 Roo Code 的“上下文提及&#xff08;Context Mentions&#xff09;”功能所要实现…

第5篇、 Kafka 数据可靠性与容错机制

在分布式消息队列系统中&#xff0c;数据可靠性 与 容错能力 是核心指标。Kafka 作为高吞吐、可扩展的流式处理平台&#xff0c;依靠副本复制、Leader 选举和 ISR 机制&#xff0c;保证了在节点故障时消息依然能够可靠传输与消费。 &#x1f4da; 目录 理论基础 一、数据复制…