上一章:机器学习核心知识点目录
下一章:机器学习02——模型评估与选择
机器学习实战项目:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备
文章目录
- 一、参考书推荐
- 二、机器学习的基本概念
- (一)核心定义
- 三、机器学习的基本术语
- (一)数据相关术语
- (二)任务类型
- (三)学习类型(按样本是否有标记)
- (四)泛化能力
- (五)归纳偏好
- 四、机器学习系统的基本流程
- 五、机器学习的发展历程
- 六、机器学习的应用领域
- 七、机器学习的参考资源
- (一)学术会议与期刊
一、参考书推荐
- 《机器学习》,周志华著,清华大学出版社,2016.1(第一版第35次印刷,2020年11月);
- 《机器学习理论导引》,周志华、王魏等著,机械工业出版社,2020.6;
- Machine Learning: A First Course for Engineers and Scientists,by Andreas Lindholm etc, Cambridge University Press, 2022。
二、机器学习的基本概念
(一)核心定义
机器学习致力于研究如何通过计算手段,利用经验改善系统自身性能,其核心研究内容是从数据中产生“模型”的“学习算法”——即通过算法让计算机从数据中学习规律,进而对新数据做出判断或预测。
三、机器学习的基本术语
(一)数据相关术语
- 样本:指待处理的个体,是机器学习的基本处理单位。
- 特性:指一类样本构成的集合中所有样本的共同属性,也可理解为描述样本的“特征”(如“瓜”的色泽、根蒂等)。
- 示例数据:文档中以“瓜”为例,展示了包含编号、色泽、根蒂、敲声、“好瓜”标签的数据表格,其中“色泽”“根蒂”等是样本的特征,“好瓜”是预测目标(标签)。
(二)任务类型
根据预测目标的性质,机器学习任务可分为:
- 分类:预测离散值。例如“好瓜/坏瓜”属于二分类,“冬瓜/南瓜/西瓜”属于多分类;
- 回归:预测连续值。例如预测“瓜的成熟度”(0-100的连续数值);
- 聚类:无需标记信息,自动将样本划分为不同群体(如根据瓜的特征将其分为不同品类,无需提前定义“好瓜”“坏瓜”)。
(三)学习类型(按样本是否有标记)
- 监督学习:使用带标记的样本(如已知“好瓜/坏瓜”标签的数据),主要任务为分类和回归;
- 无监督学习:使用无标记的样本(如只有瓜的特征,没有“好瓜”标签),主要任务为聚类;
- 半监督学习:结合有标记和无标记样本,适用于标记数据稀缺的场景(如少量已知“好瓜”标签,大量未知标签的瓜数据)。
(四)泛化能力
- 定义:指模型适用于“新样本”的能力,而非仅在训练数据上表现良好;
- 假设前提:通常假设样本服从未知分布D,且样本独立同分布(i.i.d.)——即新样本与训练样本来自同一分布,且相互独立;
- 关键影响:一般来说,训练样本数量越多,越容易学到具有强泛化能力的模型(避免“过拟合”,即模型只记住训练数据,无法应对新数据)。
(五)归纳偏好
- 定义:学习算法在选择模型时对某种类型假设的“偏好”,可理解为算法的“价值观”;
- 典型原则:“奥卡姆剃刀”是常用原则,即“若多个假设与观察一致,选择最简单的那个”(如用直线拟合数据比用复杂曲线更优先,前提是两者均符合训练样本);
- 重要结论:“没有免费的午餐”——不存在对所有问题都最优的算法,需根据具体问题选择合适的归纳偏好。
四、机器学习系统的基本流程
机器学习系统的训练过程主要包括以下环节:
- 信息获取:通过传感器将光、声音等物理信息转化为电信息(如将图像、声波、心电图等转化为计算机可处理的数据);
- 预处理:对数据进行清洗和转换,包括A/D转换(模拟信号转数字信号)、二值化、平滑、滤波、增强等,目的是去除噪声、统一格式;
- 特征选择:从原始特征中筛选出对预测任务最关键的特征(如判断“好瓜”时,“根蒂”可能比“色泽”更重要);
- 分类器设计:选择或设计学习算法,基于处理后的 data 训练模型(如用决策树、神经网络等算法训练“好瓜判断模型”);
- 分类决策:用训练好的模型对新样本进行预测(如判断一个未知瓜是否为“好瓜”)。
五、机器学习的发展历程
机器学习的发展可大致分为三个阶段,各阶段核心方法如下:
- 推理期(20世纪60-70年代):以符号主义学习为主,如决策树、基于逻辑的学习(依赖手动设计规则);
- 知识期(20世纪80-90年代):连接主义学习(如早期神经网络)和统计学习(如支持向量机、核方法)兴起,开始结合数据驱动;
- 学习期(21世纪以来):连接主义学习复兴并发展为深度学习(深度神经网络),依托大数据和算力突破,在复杂任务(如图像、语音)中表现优异。
六、机器学习的应用领域
机器学习已广泛应用于多个领域,包括:
- 识别任务:字符识别(印刷体/手写体OCR)、指纹识别、人脸识别、车牌识别等;
- 医疗健康:心电图/脑电图分析、癌细胞识别、疾病诊断(如肝炎专家系统);
- 环境与资源:遥感图像处理(资源卫星、气象卫星)、环保检测(大气、水源监测);
- 工业与制造:产品质量自动检测、智能制造;
- 人机交互:语音识别(如电话号码自动查询)、机器翻译;
- 其他领域:智能交通、智慧农业、军事应用等。
七、机器学习的参考资源
(一)学术会议与期刊
- 顶级会议:机器学习领域包括ICML、ICLR、UAI等;模式识别与计算机视觉领域有相关专业会议;
- 核心期刊:如IEEE Transactions on Pattern Analysis and Machine Intelligence、Journal of Machine Learning Research、Machine Learning(Elsevier)等。
上一章:机器学习核心知识点目录
下一章:机器学习02——模型评估与选择
机器学习实战项目:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备