机器学习01——机器学习概述

上一章：机器学习核心知识点目录
下一章：机器学习02——模型评估与选择
机器学习实战项目：【从 0 到 1 落地】机器学习实操项目目录：覆盖入门到进阶，大学生就业 / 竞赛必备

文章目录

- - 一、参考书推荐
  - 二、机器学习的基本概念
  - - （一）核心定义
  - 三、机器学习的基本术语
  - - （一）数据相关术语
    - （二）任务类型
    - （三）学习类型（按样本是否有标记）
    - （四）泛化能力
    - （五）归纳偏好
  - 四、机器学习系统的基本流程
  - 五、机器学习的发展历程
  - 六、机器学习的应用领域
  - 七、机器学习的参考资源
  - - （一）学术会议与期刊

一、参考书推荐

《机器学习》，周志华著，清华大学出版社，2016.1（第一版第35次印刷，2020年11月）；
《机器学习理论导引》，周志华、王魏等著，机械工业出版社，2020.6；
Machine Learning: A First Course for Engineers and Scientists，by Andreas Lindholm etc, Cambridge University Press, 2022。

二、机器学习的基本概念

（一）核心定义

机器学习致力于研究如何通过计算手段，利用经验改善系统自身性能，其核心研究内容是从数据中产生“模型”的“学习算法”——即通过算法让计算机从数据中学习规律，进而对新数据做出判断或预测。

三、机器学习的基本术语

（一）数据相关术语

样本：指待处理的个体，是机器学习的基本处理单位。
特性：指一类样本构成的集合中所有样本的共同属性，也可理解为描述样本的“特征”（如“瓜”的色泽、根蒂等）。
示例数据：文档中以“瓜”为例，展示了包含编号、色泽、根蒂、敲声、“好瓜”标签的数据表格，其中“色泽”“根蒂”等是样本的特征，“好瓜”是预测目标（标签）。

（二）任务类型

根据预测目标的性质，机器学习任务可分为：

分类：预测离散值。例如“好瓜/坏瓜”属于二分类，“冬瓜/南瓜/西瓜”属于多分类；
回归：预测连续值。例如预测“瓜的成熟度”（0-100的连续数值）；
聚类：无需标记信息，自动将样本划分为不同群体（如根据瓜的特征将其分为不同品类，无需提前定义“好瓜”“坏瓜”）。

（三）学习类型（按样本是否有标记）

监督学习：使用带标记的样本（如已知“好瓜/坏瓜”标签的数据），主要任务为分类和回归；
无监督学习：使用无标记的样本（如只有瓜的特征，没有“好瓜”标签），主要任务为聚类；
半监督学习：结合有标记和无标记样本，适用于标记数据稀缺的场景（如少量已知“好瓜”标签，大量未知标签的瓜数据）。

（四）泛化能力

定义：指模型适用于“新样本”的能力，而非仅在训练数据上表现良好；
假设前提：通常假设样本服从未知分布D，且样本独立同分布（i.i.d.）——即新样本与训练样本来自同一分布，且相互独立；
关键影响：一般来说，训练样本数量越多，越容易学到具有强泛化能力的模型（避免“过拟合”，即模型只记住训练数据，无法应对新数据）。

（五）归纳偏好

定义：学习算法在选择模型时对某种类型假设的“偏好”，可理解为算法的“价值观”；
典型原则：“奥卡姆剃刀”是常用原则，即“若多个假设与观察一致，选择最简单的那个”（如用直线拟合数据比用复杂曲线更优先，前提是两者均符合训练样本）；
重要结论：“没有免费的午餐”——不存在对所有问题都最优的算法，需根据具体问题选择合适的归纳偏好。

四、机器学习系统的基本流程

机器学习系统的训练过程主要包括以下环节：

信息获取：通过传感器将光、声音等物理信息转化为电信息（如将图像、声波、心电图等转化为计算机可处理的数据）；
预处理：对数据进行清洗和转换，包括A/D转换（模拟信号转数字信号）、二值化、平滑、滤波、增强等，目的是去除噪声、统一格式；
特征选择：从原始特征中筛选出对预测任务最关键的特征（如判断“好瓜”时，“根蒂”可能比“色泽”更重要）；
分类器设计：选择或设计学习算法，基于处理后的 data 训练模型（如用决策树、神经网络等算法训练“好瓜判断模型”）；
分类决策：用训练好的模型对新样本进行预测（如判断一个未知瓜是否为“好瓜”）。

五、机器学习的发展历程

机器学习的发展可大致分为三个阶段，各阶段核心方法如下：

推理期（20世纪60-70年代）：以符号主义学习为主，如决策树、基于逻辑的学习（依赖手动设计规则）；
知识期（20世纪80-90年代）：连接主义学习（如早期神经网络）和统计学习（如支持向量机、核方法）兴起，开始结合数据驱动；
学习期（21世纪以来）：连接主义学习复兴并发展为深度学习（深度神经网络），依托大数据和算力突破，在复杂任务（如图像、语音）中表现优异。

六、机器学习的应用领域

机器学习已广泛应用于多个领域，包括：

识别任务：字符识别（印刷体/手写体OCR）、指纹识别、人脸识别、车牌识别等；
医疗健康：心电图/脑电图分析、癌细胞识别、疾病诊断（如肝炎专家系统）；
环境与资源：遥感图像处理（资源卫星、气象卫星）、环保检测（大气、水源监测）；
工业与制造：产品质量自动检测、智能制造；
人机交互：语音识别（如电话号码自动查询）、机器翻译；
其他领域：智能交通、智慧农业、军事应用等。

七、机器学习的参考资源

（一）学术会议与期刊

顶级会议：机器学习领域包括ICML、ICLR、UAI等；模式识别与计算机视觉领域有相关专业会议；
核心期刊：如IEEE Transactions on Pattern Analysis and Machine Intelligence、Journal of Machine Learning Research、Machine Learning（Elsevier）等。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/pingmian/96268.shtml
繁体地址，请注明出处：http://hk.pswp.cn/pingmian/96268.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！