【1】引言
前序学习进程中,已经对概率论的基础知识做了学习,比如贝特斯公式、朴素贝叶斯算法拉普拉斯平滑计算条件概率等。
在此基础上,我们又对scikit-learn的使用进行了初步探索。
随着学习的深入,对样本数据的处理越来越重要,之前已经学习了变量去中心化和标准化,现在我们要追溯一个未来将长期使用的参数:协方差。
【2】协方差定义
协方差可以描述两个随机变量之间的线性相关程度,可以衡量两个变量如何“共同变化”。
对于两个随机变量XXX和YYY,记录协方差为Cov(X,Y)Cov(X,Y)Cov(X,Y),有:
Cov(X,Y)=E[X−E(X)(Y−E(Y))]Cov(X,Y)=E[X-E(X)(Y-E(Y))] Cov(X,Y)=E[X−E(X)(Y−E(Y))]
机器学习往往只能面向样本,此时需要校正上述公式:假设样本为[(x1,y1),(x2,y2),...,(xn,yn)][(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})][(x1,y1),(x2,y2),...,(xn,yn)],则对应的样本均值有
xˉ=1n∑i=1nxi\bar x=\frac{1}{n}\sum_{i=1}^{n}x_{i}xˉ=n1i=1∑nxi
yˉ=1n∑i=1nyi\bar y=\frac{1}{n}\sum_{i=1}^{n}y_{i}yˉ=n1i=1∑nyi
此时的样本协方差计算式为:
cov(x,y)=1n−1∑i=1n(xi−xˉ)(yi−yˉ)cov(x,y)=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar x)(y_{i}-\bar y)cov(x,y)=n−11i=1∑n(xi−xˉ)(yi−yˉ)
【3】协方差含义
若Cov(X,Y)>0Cov(X,Y)>0Cov(X,Y)>0:XXX和YYY正相关;
若Cov(X,Y)=0Cov(X,Y)=0Cov(X,Y)=0:XXX和YYY线性不相关;
若Cov(X,Y)<0Cov(X,Y)<0Cov(X,Y)<0:XXX和YYY负相关;
【4】协方差的性质
对称性:Cov(X,Y)=Cov(Y,X)Cov(X,Y)=Cov(Y,X)Cov(X,Y)=Cov(Y,X)
与方差的关系:变量自身的协方差等于方差,Cov(X,X)=Var(x)Cov(X,X)=Var(x)Cov(X,X)=Var(x)
线性性质:
Cov(aX+b,cY+d)=ac⋅Cov(X,Y)Cov(aX+b,cY+d)=ac\cdot Cov(X,Y) Cov(aX+b,cY+d)=ac⋅Cov(X,Y)
Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)
【5】总结
学习了协方差的基础知识。