机器学习基础
一、什么是机器学习
定义:让计算机利用大量数据在特定任务上持续改进性能的过程,可以让任务完成的更好。
机器学习的领域很多。
二、机器学习基本术语
数据集、样本、特征(属性)、属性空间、向量表示、训练集(训练模型的数据集合,含标记信息)、测试集(测试模型的数据集合)
三、主要学习任务(以好瓜坏瓜为例子)
监督学习:已知正确答案和参数,达到要求的学习过程。
分类:输出的结果位有限,离散型(好瓜/坏瓜)。
回归:输出某个范围内任何数值,连续型(房价预测)。
无监督学习:提供数据集合,不提供有信息的学习过程。
聚类:把样本按相似度分组。
关联分析:尿布 → 葡萄酒推荐。
集成学习
①结合多个弱学习器提升整体性能。
四、模型评估与选择
误差
训练误差(经验误差):在训练集上的误差。
泛化误差:在新样本上的期望误差。
错误率:错误的样本占样本总数的比例。
残差:实际预测输出与样本真实输出的差异。
拟合状态
欠拟合:模型太简单,训练误差高。
→ 解决:增加特征、提高模型复杂度、减小正则化。
过拟合:模型太复杂,训练误差低但泛化误差高。
→ 解决:增数据、降维、正则化、集成学习。
损失函数:衡量模型预测误差大小的函数。(损失函数越小越好)
评估方法
留出法:70 % 训练 / 30 % 测试,分层采样。
k 折交叉验证:常用 10 折,取 k 次平均。
性能指标(二分类)
TP, FP, TN, FN
查准率 P = TP / (TP+FP)
查全率 R = TP / (TP+FN)
五、选择模型的原则
奥卡姆剃刀:在可解释数据的前提下选最简单模型。
没有免费午餐(NFL):脱离具体任务谈算法优劣无意义。
机器学习=数据+算法+评估
用经验提升任务性能,警惕欠拟合与过拟合,通过交叉验证和性能指标选择最适合实际问题的简洁模型。