机器学习常见方法
涉及方法:
2.半监督学习
3.无监督学习
4.度量学习
5.迁移学习
6.多示例多标记学习
7.在线学习
8.元学习
9.联邦学习
10.强化学习
11.概率图模型
独立同分布
独立指的是,样本集包括训练集测试集的任意两个样本之间都是不相关的。在表示样本的特征确定后,训练样本集的分布是具体而确定的,成为基于训练样本的分布;样本全集,如果能够获取的话(通常无法获取),也对应着一个具体而确定的分布,称为基于样本全集的分布,同分布就是基于训练样本集的分布与基于样本全集的分布完全相同
2.半监督学习
训练数据中一部分有标签(xi,yi),一部分无标签(xj),学习一个映射f:X->Y
预测数据(xt)
未标记数据的优点:优化决策边界,提升泛化能力
假设
所有的无标记数据都属于有标记数据中的某一类
1.光滑性假设,如果高密度区域两个点x1x2很接近,那么相应输出y1y2很接近
2.聚类假设:如果在同一个簇中,很可能为同一类
3.流形假设:高维数据大致位于低维流形上,如果高维中属于一个类,那么低维也属于一个类
常见方法
自训练
1.假设:具有高置信度的预测是正确的
2.过程
用已有的有标记数据(xi,yi)训练f,预测未标记(xu,f(xu)),将预测的未标记数据加入已标记数据,继续训练,预测再加入
(全部加入|基于置信度分配权重全部加入|少量最自信的加入)
3.优点
易于理解
框架性思路:自训练+各种机器学习算法
4.缺点
对初始模型质量敏感
对数据分布敏感
伪标签错误累加
协同训练
1.假设
单独使用单个视图的数据可以训练一个好的分类器
不同视图数据相互独立
2.过程
两个分类器f1,f2
分别对无监督数据标记,f1分类最自信的k个加入f2中,f2的加入f1中
3.优点
互补信息
框架性思路
与自训练相比,对错误的伪标记不太敏感
4.缺点
在某些任务中不一定有多视图条件
5.风格
划分特征|划分数据集|划分模型
6.扩展
两个视角->三个视角
一致性正则化
1.数据增强
图片旋转裁剪放大缩小等
2.PI模型
输入有标签xi,无标签xu,进行随机数据增强,经过神经网络模型,计算损失(监督损失+无监督损失(无标签数据增强前后))
3.优点
使用简单
对噪音不敏感
4.缺点
训练时间长,效率低
3.无监督学习
最小化无监督损失函数
(k均值:样本间的相似度集|主成分分析:信息损失|自编码器:重构误差)
方法
K-means
1.过程
随机初始化k个点
计算其他数据点到这个k个的距离,选最近的中心点作为数据所在簇
在一个中心点的一个簇内,重新计算中心点的位置
重复n次
2.缺点
对初始点敏感
对噪声敏感
3.k-means++
初始化k个点的时候
先随机初始化一个中心点,算其他数据点离中心点的距离D(xi),选最远的点作为新的中心点加入,继续计算,直到得到k个中心点
主成分分析
自编码器
4.度量学习
方法
线性判别分析
最大化类间距离,最小化类内距离
深度度量学习
5.迁移学习
6.多标记多示例学习
单标记多示例
多标记单示例,包
7.在线学习
全信息在线学习,知道损失函数
只知道回报,老虎机
8.元学习
学习很多任务,元学习器,针对每个任务优化,每个任务最后验证的损失优化外层的参数
9.联邦学习
信息加密,串行并行
10.强化学习
11.概率图模型
贝叶斯
贝叶斯平均
基于后验概率的预测