最优估计准则与方法(5)加权最小二乘估计(WLS)_学习笔记

前言

最优估计理论中研究的最小二乘估计(LS)线性最小二乘估计(LLS),包括古典最小二乘估计(CLS)[1]、加权最小二乘估计(WLS)递推最小二乘估计(RLS)。本文将详细介绍加权最小二乘估计(WLS)

线性参数估计问题描述

这里重复文章[1]的相关描述。设XXXnnn维未知参数向量,ZZZkkk维观测向量,表示经过kkk组实验观测得到的观测值向量,其中元素ziz_{i}zi表示第i次观测实验得到的观测值,显然其是1维观测标量,VVVkkk维观测噪声向量,其中元素viv_{i}vi表示第i次观测实验的观测噪声,显然其是1维噪声标量。一般情况下k>nk > nk>n且希望kkknnn大得多。单次观测值为多维的情况将在其他篇幅讨论。观测实验依据的自变量为θ\thetaθ,则将观测量ziz_{i}zi表示为关于θ\thetaθ的未知函数f(θ,X)f(\theta,X)f(θ,X)
zi=f(θ,X)=∑j=1n[xjhi,j(θ)]+vi=x1hi,1(θ)+x2hi,2(θ)+⋯+xnhi,n(θ)+vi\begin{align*} z_{i} = f(\theta,X) = \sum_{j=1}^{n} \left [ x_{j}h_{i,j}(\theta) \right ]+ v_{i} = x_{1}h_{i,1}(\theta)+ x_{2}h_{i,2}(\theta) + \cdots + x_{n}h_{i,n}(\theta) + v_{i} \tag{1} \\ \end{align*} zi=f(θ,X)=j=1n[xjhi,j(θ)]+vi=x1hi,1(θ)+x2hi,2(θ)++xnhi,n(θ)+vi(1)
其中
X=[x1x2⋮xn]Z=[z1z2⋮zk]V=[v1v2⋮vk]\begin{align*} X = \begin{bmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix} Z = \begin{bmatrix} z_{1} \\ z_{2} \\ \vdots \\ z_{k} \end{bmatrix} V = \begin{bmatrix} v_{1} \\ v_{2} \\ \vdots \\ v_{k} \end{bmatrix} \end{align*} X=x1x2xnZ=z1z2zkV=v1v2vk
式(1)中hi,j(θ)h_{i,j}(\theta)hi,j(θ)表示第iii次观测第jjj个基函数,常用为多项式、三角函数或自然指数函数形式:
hi,j(θ)=θj−1hi,j(θ)=sin(jθ)hi,j(θ)=exp(λjθ)\begin{align*} h_{i,j}(\theta) &= \theta ^{j-1} \\ h_{i,j}(\theta) &= sin(j\theta) \\ h_{i,j}(\theta) &= exp(\lambda_{j} \theta) \\ \end{align*} hi,j(θ)hi,j(θ)hi,j(θ)=θj1=sin(jθ)=exp(λjθ)
其中,λj\lambda_{j}λj为自然数指数参数。
当观测实验进行,上述基函数均可根据θ\thetaθ求得。令hi=[hi,1(θ)hi,2(θ)⋯hi,n(θ)]h_{i} = \begin{bmatrix} h_{i,1}(\theta) & h_{i,2}(\theta) & \cdots & h_{i,n}(\theta) \\ \end{bmatrix}hi=[hi,1(θ)hi,2(θ)hi,n(θ)]且为已知,其为nnn维常向量,将式(1)改写为:
Z=HX+V\begin{align*} Z= HX+ V \tag{2} \\ \end{align*} Z=HX+V(2)
其中,HHH为参数向量XXX到观测向量ZZZk×nk \times nk×n维转移矩阵:
H=[h1h2⋮hk]=[h1,1(θ)h1,2(θ)⋯h1,n(θ)h2,1(θ)h2,2(θ)⋯h2,n(θ)⋮⋮⋱⋮hk,1(θ)hk,2(θ)⋯hk,n(θ)]\begin{align*} H = \begin{bmatrix} h_{1} \\ h_{2} \\ \vdots \\ h_{k} \end{bmatrix} = \begin{bmatrix} h_{1,1}(\theta) & h_{1,2}(\theta) & \cdots & h_{1,n}(\theta) \\ h_{2,1}(\theta) & h_{2,2}(\theta) & \cdots & h_{2,n}(\theta) \\ \vdots & \vdots & \ddots & \vdots\\ h_{k,1}(\theta) & h_{k,2}(\theta) & \cdots & h_{k,n}(\theta) \end{bmatrix} \\ \end{align*} H=h1h2hk=h1,1(θ)h2,1(θ)hk,1(θ)h1,2(θ)h2,2(θ)hk,2(θ)h1,n(θ)h2,n(θ)hk,n(θ)
显然,观测向量ZZZ与被估参数向量XXX存在线性关系,依据最优准则求对XXX的估计值X^\hat{X}X^是一个线性参数估计问题,自然对应线性最小二乘估计(LLS)

这里讨论下超定方程组的矛盾:当k=nk = nk=n时,线性方程组有唯一精确解,但当k>nk > nk>n,线性方程数大于未知被估参数向量的维度,线性方程组变成线性超定方程组,其解不唯一。最小二乘法的思想是需求统计意义上的近似解,使线性超定方程组中各方程能得到近似相等。

加权最小二乘估计(Weighted Least Squares Estimation, WLSE)

最小二乘估计(LS) 假设每次观测量对于估计结果的影响程度相同,但实际上观测数据的权重与该次观测的残差平方呈反比更为合理,因此引出加权最小二乘估计(WLS)
加权最小二乘估计(WLS) 估计准则为:加权残差平方和最小。
根据式(3)代价函数改写如下:
J=E^TWE^=(Z−HX^)TW(Z−HX^)=∑i=1kwie^i2=∑i=1kwi(zi−hiX^)2=min\begin{align*} J = \hat{E}^{T}W\hat{E} &= (Z-H\hat{X})^{T}W(Z-H\hat{X}) = \sum_{i=1}^{k} w_{i}\hat{e}_{i}^{2} = \sum_{i=1}^{k}w_{i}(z_{i}-h_{i}\hat{X})^{2}=min \tag{3} \\ \end{align*} J=E^TWE^=(ZHX^)TW(ZHX^)=i=1kwie^i2=i=1kwi(zihiX^)2=min(3)
其中,e^i\hat{e}_{i}e^i为第iii次观测的残差(Residual Error)E^\hat{E}E^kkk维残差向量有:
e^i=zi−hiX^E^=Z−HX^=[e^1e^2⋮e^k]\begin{align*} \hat{e}_{i} &= z_{i}-h_{i}\hat{X} \\ \hat{E} &= Z-H\hat{X} = \begin{bmatrix} \hat{e}_{1} \\ \hat{e}_{2} \\ \vdots \\ \hat{e}_{k} \end{bmatrix} \\ \end{align*} e^iE^=zihiX^=ZHX^=e^1e^2e^k
WWW为可根据实际情况适当选取的k×kk\times kk×k阶对称正定加权矩阵,但当W=IW=IW=I时,加权最小二乘估计退化为最小二乘估计。
W=[w10⋯00w2⋯0⋮⋮⋱⋮00⋯wk]\begin{align*} W &= \begin{bmatrix} w_{1} & 0& \cdots& 0\\ 0& w_{2} & \cdots& 0 \\ \vdots& \vdots& \ddots & \vdots\\ 0& 0& \cdots& w_{k} \end{bmatrix} \\ \end{align*} W=w1000w2000wk
加权最小二乘估计(WLS)方法
根据式(3)进行对如下代价函数进行最小化:
J=(Z−HX^)TW(Z−HX^)\begin{align*} J &= (Z-H\hat{X})^{T}W(Z-H\hat{X}) \tag{4} \\ \end{align*} J=(ZHX^)TW(ZHX^)(4)
JJJX^\hat{X}X^求偏导,并令其为0,有:
∂J∂X^=0∂J∂(Z−HX^)∂(Z−HX^)∂X^=0−2HTW(Z−HX^)=0X^=(HTWH)−1HTWZ\begin{align*} \frac{\partial J}{\partial \hat{X}} &= 0 \\ \frac{\partial J}{\partial (Z-H\hat{X})}\frac{\partial (Z-H\hat{X})}{\partial \hat{X}} &=0 \\ -2H^{T}W(Z-H\hat{X}) &= 0 \\ \hat{X} &= (H^{T}WH)^{-1}H^{T}WZ \tag{5} \end{align*} X^J(ZHX^)JX^(ZHX^)2HTW(ZHX^)X^=0=0=0=(HTWH)1HTWZ(5)
再由∂2J∂X^2=2HTWH>0\frac{\partial^{2} J}{\partial \hat{X}^{2}}=2H^{T}WH > 0X^22J=2HTWH>0,为X^\hat{X}X^为被估参数向量XXX的加权最小二乘估计,显然其是观测向量ZZZ的线性估计。
Jmin=(Z−HX^)TW(Z−HX^)=ZT(I−H(HTWH)−1HTW)T(I−H(HTWH)−1HTW)Z\begin{align*} J_{min} &= (Z-H\hat{X})^{T}W(Z-H\hat{X}) \\ &= Z^{T}(I-H(H^{T}WH)^{-1}H^{T}W)^{T}(I-H(H^{T}WH)^{-1}H^{T}W)Z \tag{6} \\ \end{align*} Jmin=(ZHX^)TW(ZHX^)=ZT(IH(HTWH)1HTW)T(IH(HTWH)1HTW)Z(6)
加权最小二乘估计(WLS)无偏性
令估计误差为X~\tilde{X}X~,定义被估参数向量XXX与估计值向量X^\hat{X}X^的偏差,有:
X~=X−X^=(HTWH)−1HTWHX−(HTWH)−1HTWZ=(HTWH)−1HTW(HX−Z)=−(HTWH)−1HTWV\begin{align*} \tilde{X} &= X - \hat{X} \tag{7} \\ &= (H^{T}WH)^{-1}H^{T}WHX - (H^{T}WH)^{-1}H^{T}WZ \\ &= (H^{T}WH)^{-1}H^{T}W(HX - Z) \\ &= -(H^{T}WH)^{-1}H^{T}WV \tag{8} \\ \end{align*} X~=XX^=(HTWH)1HTWHX(HTWH)1HTWZ=(HTWH)1HTW(HXZ)=(HTWH)1HTWV(7)(8)
估计误差X~\tilde{X}X~的数学期望为:
E[X~]=E[X−X^]=E[−(HTWH)−1HTWV]=−(HTWH)−1HTWE[V]\begin{align*} E[\tilde{X}] &= E[X - \hat{X}] \tag{9} \\ &= E[-(H^{T}WH)^{-1}H^{T}WV] \\ &= -(H^{T}WH)^{-1}H^{T}WE[V] \tag{10} \\ \end{align*} E[X~]=E[XX^]=E[(HTWH)1HTWV]=(HTWH)1HTWE[V](9)(10)
由式(10)可知,如果观测噪声VVV为白噪声,即E[V]=0E[V]=0E[V]=0,则加权最小二乘估计X^\hat{X}X^为无偏线性估计。在该无偏估计情况下,估计误差X^\hat{X}X^的方差矩阵与估计量X^\hat{X}X^的均方误差矩阵相等,推导见[1],即:
Var(X~)=MSE(X^)=E[X~X~T]=E[(−(HTWH)−1HTWV)(−(HTWH)−1HTWV)T]=(HTWH)−1HTWE[VVT]WH(HTWH)−1=(HTWH)−1HTWRWH(HTWH)−1\begin{align*} Var(\tilde{X}) &= MSE(\hat{X}) \tag{11} \\ &= E[\tilde{X}\tilde{X}^{T}] \\ &= E[(-(H^{T}WH)^{-1}H^{T}WV)(-(H^{T}WH)^{-1}H^{T}WV)^{T}] \\ &= (H^{T}WH)^{-1}H^{T}WE[VV^{T}]WH(H^{T}WH)^{-1} \\ &= (H^{T}WH)^{-1}H^{T}WRWH(H^{T}WH)^{-1} \tag{12} \\ \end{align*} Var(X~)=MSE(X^)=E[X~X~T]=E[((HTWH)1HTWV)((HTWH)1HTWV)T]=(HTWH)1HTWE[VVT]WH(HTWH)1=(HTWH)1HTWRWH(HTWH)1(11)(12)
其中,RRR为观测噪声向量VVV的方差矩阵:
R=[σ120⋯00σ22⋯0⋮⋮⋱⋮00⋯σk2]\begin{align*} R &= \begin{bmatrix} \sigma_{1}^{2} & 0& \cdots& 0\\ 0& \sigma_{2}^{2} & \cdots& 0 \\ \vdots& \vdots& \ddots & \vdots\\ 0& 0& \cdots& \sigma_{k}^{2} \end{bmatrix} \\ \end{align*} R=σ12000σ22000σk2
由式(8)和(14)可知,即使在无偏估计前提下,二者并不一定相等。因此,加权最小二乘无偏估计只能保证加权残差平方和最小,但不能保证估计误差方差最小。

最优加权最小二乘估计
由于WWW为可设定的对称正定加权矩阵,在无偏估计前提下,WWW取某个值可使估计误差方差矩阵式(12)最小,令R=CTCR=C^{T}CR=CTC,则:
Var(X~)=(HTWH)−1HTWRWH(HTWH)−1=(CWH(HTWH)−1)TCWH(HTWH)−1\begin{align*} Var(\tilde{X}) &= (H^{T}WH)^{-1}H^{T}WRWH(H^{T}WH)^{-1} \\ &= (CWH(H^{T}WH)^{-1})^{T} CWH(H^{T}WH)^{-1} \tag{13} \\ \end{align*} Var(X~)=(HTWH)1HTWRWH(HTWH)1=(CWH(HTWH)1)TCWH(HTWH)1(13)
A=CWH(HTWH)−1A=CWH(H^{T}WH)^{-1}A=CWH(HTWH)1B=C−1HB=C^{-1}HB=C1H,根据施瓦次(Schwarz)不等式
Var(X~)=ATA≥(ATB)T(BTB)−1(BTA)=(HTR−1H)−1\begin{align*} Var(\tilde{X}) &= A^{T} A \geq (A^{T}B)^{T}(B^{T}B)^{-1} (B^{T}A) = (H^{T}R^{-1}H)^{-1} \tag{14} \\ \end{align*} Var(X~)=ATA(ATB)T(BTB)1(BTA)=(HTR1H)1(14)
若式(14)取最小值,W=R−1W=R^{-1}W=R1,此时有
X^=(HTR−1H)−1HTR−1ZVar(X~)=(HTR−1H)−1\begin{align*} \hat{X} &= (H^{T}R^{-1}H)^{-1}H^{T}R^{-1}Z \tag{15} \\ Var(\tilde{X}) &= (H^{T}R^{-1}H)^{-1} \tag{16} \\ \end{align*} X^Var(X~)=(HTR1H)1HTR1Z=(HTR1H)1(15)(16)
当噪声向量VVV的统计均值为E[V]=0E[V]=0E[V]=0,且加权残差平方和中的最优加权矩阵W=R−1W=R^{-1}W=R1时,最优加权最小二乘估计是缺少初值条件下的线性无偏最小方差估计,又称为马尔可夫(Markov)估计

综上,根据加权最小二乘估计原理,做如下总结:

  1. 求加权最小二乘估计量X^\hat{X}X^不需要任何观测噪声向量VVV的任何统计信息;
  2. 加权最小二乘估计的无偏性取决于噪声向量VVV的数学期望,如VVV为白噪声,即为无偏估计;
  3. 无论是否具备无偏性,最小二乘估计只能保证加权残差平方和最小而不是估计误差方差最小;
  4. 当噪声向量VVV的均值为0,且已知其方差矩阵RRR,最优加权矩阵W=R−1W=R^{-1}W=R1,此时为最优加权最小二乘估计,即马尔可夫估计。

参考文献

[1] 最优估计准则与方法(4)最小二乘估计(LS)_学习笔记
https://blog.csdn.net/jimmychao1982/article/details/149656745
[2] 《最优估计理论》,周凤歧,2009,高等教育出版社。
[3] 《最优估计理论》,刘胜,张红梅著,2011,科学出版社。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/916292.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/916292.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux——线程互斥

文章目录一、有关概念原子性错误认知澄清加锁二、锁的相关函数全局锁局部锁初始化销毁加锁解锁三、锁相关如何看待锁一个线程在执行临界区的代码时,可以被切换吗?锁是本身也是临界资源,它如何做到保护自己?(锁的实现&a…

扣子(Coze)宣布开源两大核心项目——Coze Studio(扣子开发平台)和Coze Loop(扣子罗盘),附安装步骤

2025年7月26日,字节跳动旗下AI开发平台“扣子(Coze)”宣布开源两大核心项目——Coze Studio(扣子开发平台)和Coze Loop(扣子罗盘),采用Apache 2.0协议,支持免费商用及本地化部署。 开源内容 Coze Studio:提供可视化AI智能体开发工具,支持零代码/低代码拖拽式工作流编…

InfluxDB Flux 查询协议实战应用(二)

四、实战案例解析4.1 服务器性能监控数据查询在服务器性能监控场景中,InfluxDB 和 Flux 查询协议能够发挥重要作用,帮助运维人员实时了解服务器的运行状态,及时发现性能问题。假设我们的服务器性能监控数据存储在名为server-monitoring的存储…

二层隧道协议(PPP、PPTP、L2TP)

PPP —— 点对点链路上的“链路层会话层”协议,解决拨号认证、IP 分配和多协议封装。PPTP —— 在 IP 网络里开一条“PPP-over-GRE”隧道,把 PPP 封装进公共网络,速度快但已不安全。L2TP —— 在 IP/UDP 里再开一条“PPP-over-UDP”隧道&…

openmv特征点检测

AGAST 角点检测器和 FAST 角点检测器: 两者都是计算机视觉中快速检测图像角点的算法,核心目的是高效找到图像中 "有辨识度的点",但细节略有不同: (1)FAST 角点检测器 • 特点:速度极快…

基于深度学习的CT图像3D重建技术研究

基于深度学习的CT图像3D重建技术研究 摘要 本文详细探讨了使用深度学习技术进行CT(计算机断层扫描)图像3D重建的全过程。我们从CT成像基本原理出发,系统介绍了数据预处理、深度学习模型构建、训练优化以及三维可视化等关键技术环节。研究采用了先进的深度学习架构如3D U-Net…

JVM相关面试八股

什么是双亲委派模型? 如果一个类加载器在接到加载类的请求时,它首先不会自己尝试去加载这个类,而是把这个请求任务委托给父类加载器去完成,依次递归,如果父类加载器可以完成类加载任务,就返回成功&#xff…

Javaweb————HTTP消息体拆分讲解

❤️❤️❤️一.HTTP请求消息结构 (1)请求行 💙 请求方法 💙URL地址 💙协议名 (2)请求头 报文头包含若千个属性格式为“属性名:属性值”, 服务端据此获取客户端的基本信息 (3&…

GitHub的免费账户的存储空间有多少?

GitHub的免费账户在存储空间方面的具体限制如下: 一、普通仓库(非LFS)存储限制 公共仓库 总存储:无明确总容量限制,但建议单个仓库不超过1GB以确保性能。若仓库过大(如超过5GB),可能会收到GitHub的优化提示邮件。 文件大小:单个文件最大100MB,超过100MB的文件会被直…

Java学习|黑马笔记|Day23】网络编程、反射、动态代理

【DAY23】 文章目录【DAY23】一.网络编程1)三要素1.1)IPInetAddress类的使用1.2)端口号1.3)协议2.1)UDP协议发送数据2.2)UDP协议接收数据2.3)UDP的三种通信方式3.1)TCP协议的发送和接…

【Linux】从普通进程到守护进程:系统服务的诞生之路

当你在深夜关闭SSH终端,为何Web服务器仍在默默响应请求?这背后是守护进程的魔法在守护着系统服务的不灭之火。一、守护进程的六大核心特征守护进程(Daemon)是Linux系统的无名英雄,它们舍弃了普通进程的"世俗享受&…

k8s常用基础命令总结

----------------------k8s常用基础命令--------------------------------- 获取 Pod 信息 # 1.获取k8s的命名空间 kubectl get namespaces ​1)获取 Pod 列表及简要信息: kubectl get pods 2)以 YAML 格式获取 Pod 详细信息: kubectl get pod -o yaml 3)​获取特定命名空间中…

Java高级之基于Java Attach与Byte-Buddy实现SQL语句增强

目录 一 Agent 模块 1 HookAgent.java 2 FormatAdvice.java 3 配置文件 二 Attacher 模块 1 AttachMain.java 三 测试模块 1 DruidTest.java 四 验证步骤 五 原理解析 笔者目标写一款数据分析中间件,用来增强当前主流开源项目,前几天写了一票用…

2025第五届生物发酵营养源高峰论坛

一、会议时间会议时间:2025年8月8日二、会议地点上海新国际博览中心–W4馆现场2号会议室三、组织单位主办单位:中国生物发酵产业协会承办单位:浙江工业大学乐斯福集团Procelys 乐斯福发酵营养元参会福利,助力高效交流为提升参会体验,组委会特别推出多项福…

Kubernetes 配置管理

这里写目录标题什么是 ConfigMap创建 ConfigMap基于目录创建 ConfigMap创建 conf 目录,里面放置两个文件基于目录下的所有文件创建 ConfigMap查看当前创建的 ConfigMap基于文件创建 ConfigMap创建测试文件 game-cfg基于单个文件创建 ConfigMap查看当前创建的 Config…

ESP32+MicroPython:用Python玩转物联网开发

什么是ESP32? ESP32作为当下最热门的物联网开发板,常被比作"嵌入式世界的瑞士军刀"。但很多初学者会混淆芯片、模组和开发板的概念,其实它们的关系很简单: 芯片(Soc):核心处理器,如ESP32-D0WD模…

opencv学习(图像金字塔)

1.什么是图像金字塔图像金字塔是一种多尺度图像表示方法,通过对原始图像进行下采样(缩小)和上采样(放大),生成一系列不同分辨率的图像集合,形似 “金字塔”(底部是高分辨率原始图像&…

从 C# 到 Python:项目实战第五天的飞跃

在前面三天的学习中,我们已经掌握了 Python 的基础语法、数据结构以及一些核心库的使用。今天,我们将通过三个实战项目,深入对比 C# 和 Python 在命令行工具开发、Web 应用开发以及数据处理方面的差异,感受 Python 在实际项目中的…

rabbitmq 03

一、mq的作用和使用场景 MQ的基本作用 MQ(Message Queue,消息队列)是一种应用程序对应用程序的通信方法,主要作用包括: 异步处理:解耦生产者和消费者,允许生产者发送消息后立即返回&#xff0…

Ubuntu 24.04 显示中文+使用中文键盘

ubuntu 24.04 中文显示中文键盘Ubuntu中文输入重启iBus服务Ubuntu中文输入 安装的Ubuntu24.04,一般默认是英文的,要使用中文的话,可以通过命令行设置,也可以使用‘设置’,在图形化界面中操作。 下面是在‘设置’的图形…