【1】引言
前序学习进程中,对用scikit-learn表达线性回归进行了初步解读。
线性回归能够将因变量yyy表达成由自变量xxx、线性系数矩阵www和截距bbb组成的线性函数式:
y=∑i=1nwi⋅xi+b=wTx+by=\sum_{i=1}^{n}w_{i}\cdot x_{i}+b=w^T{x}+by=i=1∑nwi⋅xi+b=wTx+b实际上很多时候数据之间不一定是理想化的线性关系,所以需要对线性关系式进行修正,这个时候就可以考虑岭回归。
岭回归是修正后的线性回归,相对于普通线性回归,增加了一个参数:均方误差。
【2】线性回归均方误差
对于线性回归,均方误差的计算式子为:
L(w,b)=∑i=1n(yi−yi^)2=∑i=1n(yi−(wTxi+b))2L(w,b)=\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2=\sum_{i=1}^{n}(y_{i}-(w^Tx_{i}+b))^2L(w,b)=i=1∑n(yi−yi^)2=i=1∑n(yi−(wTxi+b))2在这里,yyy是第i个样本的真实值,y^\hat{y}y^是第i个样本的预测值。
线性回归的均方误差将真实值和预测值作差后求平方和即可。
【3】岭回归均方误差
岭回归相对于线性回归,均方误差的计算式子增加了对参数权重平方和的计算,称之为L2正则化惩罚项:
L(w,b)=∑i=1n(yi−yi^)2+α∑j=1mwj2=∑i=1n(yi−(wTxi+b))2+α∑j=1mwj2L(w,b)=\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2+\alpha\sum_{j=1}^{m}w_{j}^{2}=\sum_{i=1}^{n}(y_{i}-(w^Tx_{i}+b))^2+\alpha\sum_{j=1}^{m}w_{j}^{2}L(w,b)=i=1∑n(yi−yi^)2+αj=1∑mwj2=i=1∑n(yi−(wTxi+b))2+αj=1∑mwj2在这里,yyy是第i个样本的真实值,y^\hat{y}y^是第i个样本的预测值。
新增加的L2正则化惩罚项为α∑j=1mwj2,其中α≥0\alpha\sum_{j=1}^{m}w_{j}^{2},其中\alpha\geq0α∑j=1mwj2,其中α≥0
实际上根据上述说明,从线性回归到岭回归主要的变化发生在均方误差的定义上。
岭回归大名鼎鼎,在均方误差项里面增加了一个L2正则化惩罚项。既然可以有L2正则化,显然也可以有L1正则化,这就是Lasso套索回归方。
【4】套索回归Lasso
岭回归相对于普通线性回归,区别在于添加了L2正则化惩罚项,这一变化解决了普通线性回归至少两个问题:多重共线性和过拟合。
套索回归Lasso相对于普通线性回归,添加L1正则化惩罚项,此时的均方误差公式为:
L(w,b)=12n∑i=1n(yi−yi^)2+α∑j=1n∣wj∣=12n∑i=1n(yi−(wTxi+b))2+α∑j=1n∣wj∣L(w,b)=\frac{1}{2n}\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2+\alpha\sum_{j=1}^{n}\left | w_{j} \right |=\frac{1}{2n}\sum_{i=1}^{n}(y_{i}-(w^Tx_{i}+b))^2+\alpha\sum_{j=1}^{n}\left | w_{j} \right |L(w,b)=2n1i=1∑n(yi−yi^)2+αj=1∑n∣wj∣=2n1i=1∑n(yi−(wTxi+b))2+αj=1∑n∣wj∣
新增加的L1正则化惩罚项为α∑j=1m∣wj∣\alpha\sum_{j=1}^{m}\left | w_{j} \right |α∑j=1m∣wj∣,其中:
α≥0\alpha \geq0α≥0是L1正则化惩罚项强度,可以控制对后面部分惩罚的力度;
∑j=1n∣wj∣\sum_{j=1}^{n}\left | w_{j}\right |∑j=1n∣wj∣是所有线性系数绝对值的和。
当α>0\alpha >0α>0时,随着α\alphaα增加,正则化强度增加,会增强对系数绝对值和的约束,使得w→0w \rightarrow 0w→0;
当α=0\alpha=0α=0,惩罚项不起作用,Lasso回归退回到普通线性回归。
【5】套索回归Lasso的特点
岭回归和线性回归都是线性关系式的推演,但岭回归通过L2正则化惩罚项让线性系数wjw_{j}wj保持在合理且较小的范围,让回归模型更稳健、更准确。
套索回归Lasso会让部分线性系数直接精确约束至0,即自动剔除不重要的特征,是的模型最终只保留少数非零系数特征,这个特性让Lasso非常适合高维数据的降维和变量筛选;
此外L1正则化惩罚项的存在,很显然对线性系数发挥约束作用可以防止线性回归过拟合。
此外应该强调的是,较小的α\alphaα可以保留相对多的特征,特征多可能过拟合,所以使用Lasso回归应对L1正则化惩罚项的系数α\alphaα进行选取尝试,已实现获取最佳效果。
【6】总结
初步学习了套索回归Lasso的基本概念,了解了套索回归在对高维数据降维上的优势和防止数据过拟合应该采取的措施。