Lyapunov与SAC算法的数学结构对比:从二次漂移到TD损失

一、李雅普诺夫优化中二次漂移函数的推导

李雅普诺夫优化的核心是通过设计 “李雅普诺夫函数” 和 “漂移项”,保证系统状态收敛到稳定点。以下以线性时不变系统为例(非线性系统推导逻辑类似,仅动力学方程更复杂),推导二次漂移函数的形式。

1. 系统定义与假设

考虑连续时间线性系统(离散时间推导类似,仅用差分替代微分):x˙(t)=Ax(t)+Bu(t)\dot{x}(t) = Ax(t) + Bu(t)x˙(t)=Ax(t)+Bu(t) 其中:

  • x(t)∈Rnx(t) \in \mathbb{R}^nx(t)Rn为系统状态向量,
  • (u(t)∈Rm(u(t) \in \mathbb{R}^m(u(t)Rm 为控制输入,
  • A∈Rn×nA \in \mathbb{R}^{n \times n}ARn×nB∈Rn×mB \in \mathbb{R}^{n \times m}BRn×m为系统矩阵(已知,体现动力学特性)。

目标:设计控制输入 u(t)u(t)u(t),使系统状态 x(t)x(t)x(t) 收敛到原点(稳定点,即 x∗=0x^* = 0x=0

2. 李雅普诺夫函数的构造

李雅普诺夫函数 V(x)V(x)V(x) 需满足:

  • 正定性V(x)>0V(x) > 0V(x)>0 对所有 x≠0x \neq 0x=0 成立,且 V(0)=0V(0) = 0V(0)=0

  • 径向无界性:当 ∥x∥→∞\|x\| \to \inftyx 时,V(x)→∞V(x) \to \inftyV(x)(保证全局收敛)。

最常用的二次型李雅普诺夫函数为:V(x)=xTPxV(x) = x^T P xV(x)=xTPx 其中 P∈Rn×nP \in \mathbb{R}^{n \times n}PRn×n正定对称矩阵P>0P > 0P>0),确保 V(x)V(x)V(x) 满足正定

3. 二次漂移函数的推导

“漂移” 指李雅普诺夫函数随时间的变化率(连续时间为导数,离散时间为差分),用于衡量系统偏离稳定点的趋势。

(1)连续时间漂移

V(x)V(x)V(x) 求时间导数:

V˙(x)=ddt(xTPx)=x˙TPx+xTPx˙\dot{V}(x) = \frac{d}{dt} (x^T P x) = \dot{x}^T P x + x^T P \dot{x}V˙(x)=dtd(xTPx)=x˙TPx+xTPx˙

代入系统动力学方程

x˙=Ax+Bu:dotV(x)=(Ax+Bu)TPx+xTP(Ax+Bu)\dot{x} = Ax + Bu:dot{V}(x) = (Ax + Bu)^T P x + x^T P (Ax + Bu) x˙=Ax+BudotV(x)=(Ax+Bu)TPx+xTP(Ax+Bu)

展开并利用用矩阵转置性质(AB)T=BTAT(AB)^T = B^T A^T(AB)T=BTAT

V˙(x)=xTATPx+uTBTPx+xTPAx+xTPBu\dot{V}(x) = x^T A^T P x + u^T B^T P x + x^T P A x + x^T P B uV˙(x)=xTATPx+uTBTPx+xTPAx+xTPBu

因 (P) 对称PT=PP^T = PPT=P,故

xTPAx=(xTPAx)T=xTATPx x^T P A x = (x^T P A x)^T = x^T A^T P xxTPAx=(xTPAx)T=xTATPx

合并同类项:

V˙(x)=2xTATPx+uTBTPx+xTPBu\dot{V}(x) = 2x^T A^T P x + u^T B^T P x + x^T P B uV˙(x)=2xTATPx+uTBTPx+xTPBu

为使系统稳定,需设计 u(t)u(t)u(t) 使 V˙(x)<0\dot{V}(x) < 0V˙(x)<0(负定性,保证V(x)V(x)V(x) 随时间减小,即状态向原点收敛。

若采用线性反馈控制 u=−Kxu = -Kxu=Kx, KKK 为反馈增益矩阵,代入得:

V˙(x)=xT(ATP+PA−PBK−KTBTP)x\dot{V}(x) = x^T \left( A^T P + P A - P B K - K^T B^T P \right) x V˙(x)=xT(ATP+PAPBKKTBTP)x

Q=−(ATP+PA−PBK−KTBTP)Q = -(A^T P + P A - P B K - K^T B^T P)Q=(ATP+PAPBKKTBTP) ,则:

V˙(x)=−xTQx\dot{V}(x) = -x^T Q xV˙(x)=xTQx 其中 (Q > 0)(正定)

因此 V˙(x)\dot{V}(x)V˙(x)负定二次型,即漂移函数为二次形式。

(2)离散时间漂移

若系统为离散时间(更贴近强化学习的时序特性):

xt+1=Axt+Butx_{t+1} = A x_t + B u_txt+1=Axt+But

则漂移定义为相邻时刻李雅普诺夫函数的差分:

ΔV(xt)=V(xt+1)−V(xt)=xt+1TPxt+1−xtTPxt\Delta V(x_t) = V(x_{t+1}) - V(x_t) = x_{t+1}^T P x_{t+1} - x_t^T P x_tΔV(xt)=V(xt+1)V(xt)=xt+1TPxt+1xtTPxt

代入 xt+1=Axt+Butx_{t+1} = A x_t + B u_txt+1=Axt+But

ΔV(xt)=(Axt+But)TP(Axt+But)−xtTPxt\Delta V(x_t) = (A x_t + B u_t)^T P (A x_t + B u_t) - x_t^T P x_tΔV(xt)=(Axt+But)TP(Axt+But)xtTPxt

展开得:

ΔV(xt)=xtTATPAxt+xtTATPBut+utTBTPAxt+utTBTPBut−xtTPxt\Delta V(x_t) = x_t^T A^T P A x_t + x_t^T A^T P B u_t + u_t^T B^T P A x_t + u_t^T B^T P B u_t - x_t^T P x_tΔV(xt)=xtTATPAxt+xtTATPBut+utTBTPAxt+utTBTPButxtTPxt

合并后可写成:

ΔV(xt)=xtT(ATPA−P)xt+2xtTATPBut+utTBTPBut\Delta V(x_t) = x_t^T (A^T P A - P) x_t + 2 x_t^T A^T P B u_t + u_t^T B^T P B u_tΔV(xt)=xtT(ATPAP)xt+2xtTATPBut+utTBTPBut

这仍是关于xtx_txtutu_tut二次型函数,即二次漂移函数。

4. 核心结论

李雅普诺夫优化的二次漂移函数(连续时间的V˙(x)\dot{V}(x)V˙(x) 或离散时间的ΔV(xt)\Delta V(x_t)ΔV(xt)本质是二次型误差度量,通过约束状态(及控制输入)的二次项,确保系统向稳定点收敛。

二、SAC 中 TD 目标损失函数的推导

SAC(Soft Actor-Critic)是基于最大熵强化学习的算法,其价值网络的损失函数通过 TD(Temporal Difference)目标定义,核心是最小化 “预测 Q 值” 与 “bootstrapped 目标 Q 值” 的偏差。

1. 问题定义(马尔可夫决策过程,MDP)

SAC 的优化对象是 MDP,定义为 (S,A,r,p,γ)(\mathcal{S}, \mathcal{A}, r, p, \gamma)(S,A,r,p,γ)

  • S\mathcal{S}S:状态空间,A\mathcal{A}A:动作空间,
  • r(s,a)∈Rr(s,a) \in \mathbb{R}r(s,a)R:状态 sss 下执行动作aaa 的即时奖励,
  • p(s′∣s,a)p(s'|s,a)p(ss,a):状态转移概率(从 ssss′s's ),
  • γ∈[0,1)\gamma \in [0,1)γ[0,1):折扣因子(未来奖励的权重)。

目标:学习策略 π(a∣s)\pi(a|s)π(as)(状态 sss 下动作 aaa 的概率分布),最大化累积熵奖励

J(π)=Eτ∼π[∑t=0∞γt(r(st,at)+αH(π(⋅∣st)))]J(\pi) = \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^\infty \gamma^t \left( r(s_t,a_t) + \alpha H(\pi(\cdot|s_t)) \right) \right]J(π)=Eτπ[t=0γt(r(st,at)+αH(π(st)))]

其中 H(π(⋅∣s))=−Ea∼π[log⁡π(a∣s)]H(\pi(\cdot|s)) = -\mathbb{E}_{a \sim \pi} [\log \pi(a|s)]H(π(s))=Eaπ[logπ(as)] 是策略的熵(鼓励探索),α>0\alpha > 0α>0 是熵温度参数。

2. 软 Q 值(Soft Q-Function)的定义

为量化策略的累积熵奖励,定义 “软 Q 值” Qπ(s,a)Q^\pi(s,a)Qπ(s,a) 为:
Qπ(s,a)=E[∑k=0∞γk(r(st+k,at+k)+αH(π(⋅∣st+k)))∣st=s,at=a]Q^\pi(s,a) = \mathbb{E} \left[ \sum_{k=0}^\infty \gamma^k \left( r(s_{t+k}, a_{t+k}) + \alpha H(\pi(\cdot|s_{t+k})) \right) \bigg| s_t = s, a_t = a \right]Qπ(s,a)=E[k=0γk(r(st+k,at+k)+αH(π(st+k)))st=s,at=a]

利用时序分解(类似贝尔曼方程),软 Q 值满足:
Qπ(s,a)=r(s,a)+γEs′∼p,a′∼π[Qπ(s′,a′)]Q^\pi(s,a) = r(s,a) + \gamma \mathbb{E}_{s' \sim p, a' \sim \pi} \left[ Q^\pi(s', a') \right]Qπ(s,a)=r(s,a)+γEsp,aπ[Qπ(s,a)]
(推导:将累积和拆分为即时奖励 + 未来奖励的折扣期望,因a′∼πa' \sim \piaπ,故未来熵奖励已包含在 Qπ(s′,a′)Q^\pi(s',a')Qπ(s,a)中)。

3. TD 目标与损失函数的构造

SAC 通过价值网络参数化软 Q 值:Qθ(s,a)≈Qπ(s,a)Q_\theta(s,a) \approx Q^\pi(s,a)Qθ(s,a)Qπ(s,a)θ\thetaθ 为网络参数)。为优化 θ\thetaθ,需定义损失函数,使其最小化 “预测 Q 值” 与 “目标 Q 值” 的偏差。

(1)TD 目标的定义

目标 Q 值(TD 目标)由 “即时奖励 + 未来软 Q 值的折扣期望” 构成,为避免训练不稳定,SAC 使用目标网络 (Qθ′Q_{\theta'}Qθ(参数 θ\thetaθ缓慢更新,与 θ\thetaθ 分离):

yt=rt+γEa′∼πϕ[Qθ′(s′,a′)−αlog⁡πϕ(a′∣s′)]y_t = r_t + \gamma \mathbb{E}_{a' \sim \pi_\phi} \left[ Q_{\theta'}(s', a') - \alpha \log \pi_\phi(a'|s') \right]yt=rt+γEaπϕ[Qθ(s,a)αlogπϕ(as)]

其中:

  • piϕ(a∣s)pi_\phi(a|s)piϕ(as) 是参数化策略(ϕ\phiϕ 为策略参数),
  • 减去 αlog⁡πϕ(a′∣s′)\alpha \log \pi_\phi(a'|s')αlogπϕ(as) 是因为:Ea′∼π[Qπ(s′,a′)]=Ea′∼π[Qθ′(s′,a′)−αlog⁡π(a′∣s′)]\mathbb{E}_{a' \sim \pi} [Q^\pi(s',a')] = \mathbb{E}_{a' \sim \pi} [Q_{\theta'}(s',a') - \alpha \log \pi(a'|s')]Eaπ[Qπ(s,a)]=Eaπ[Qθ(s,a)αlogπ(as)](软 Q 值的性质)。
(2)损失函数的推导

价值网络的优化目标是最小化 “预测 Q 值 Qθ(s,a)Q_\theta(s,a)Qθ(s,a)” 与 “TD 目标 yty_tyt” 的均方误差(MSE),即:

L(θ)=E(s,a,r,s′)∼D[(Qθ(s,a)−yt)2]\mathcal{L}(\theta) = \mathbb{E}_{(s,a,r,s') \sim \mathcal{D}} \left[ \left( Q_\theta(s,a) - y_t \right)^2 \right]L(θ)=E(s,a,r,s)D[(Qθ(s,a)yt)2]

其中 D\mathcal{D}D 是经验回放池(存储历史样本 (s,a,r,s′)(s,a,r,s')(s,a,r,s))。

代入 yty_tyt 的表达式,损失函数展开为:

L(θ)=E[(Qθ(s,a)−(r+γEa′∼πϕ[Qθ′(s′,a′)−αlog⁡πϕ(a′∣s′)]))2]\mathcal{L}(\theta) = \mathbb{E} \left[ \left( Q_\theta(s,a) - \left( r + \gamma \mathbb{E}_{a' \sim \pi_\phi} \left[ Q_{\theta'}(s',a') - \alpha \log \pi_\phi(a'|s') \right] \right) \right)^2 \right]L(θ)=E[(Qθ(s,a)(r+γEaπϕ[Qθ(s,a)αlogπϕ(as)]))2]

4. 核心结论

SAC 的 TD 目标损失函数是二次型误差,衡量 “当前 Q 值预测” 与 “基于未来奖励和策略熵的目标值” 的偏差,通过梯度下降最小化该误差,使 Q 值估计收敛到真实软 Q 值。

三、两者数学结构的相似性对比

通过推导可见,两个公式的核心相似性体现在二次型误差时序递推的数学结构上:

维度李雅普诺夫二次漂移函数(离散时间)SAC 的 TD 目标损失函数
二次项形式ΔV(xt)=xt+1TPxt+1−xtTPxt\Delta V(x_t) = x_{t+1}^T P x_{t+1} - x_t^T P x_tΔV(xt)=xt+1TPxt+1xtTPxt)(二次型差分)L(θ)=(预测值−目标值)2\mathcal{L}(\theta) = (\text{预测值} - \text{目标值})^2L(θ)=(预测值目标值)2(二次误差)
时序关联依赖 xtx_txtxt+1x_{t+1}xt+1 的关系(状态转移)依赖 (s,a)(s,a)(s,a)(s′,a′)(s',a')(s,a) 的关系(MDP 转移)
优化目标最小化漂移(使 ΔV≤0\Delta V \leq 0ΔV0,保证状态收敛最小化二次误差,使 Q 值估计收敛到真实值
核心变量系统状态 x(物理 / 抽象状态)价值估计 Q(对累积奖励的预测)

总结

两者的数学推导均围绕 “二次型误差度量” 和 “相邻时间步的递推关系” 展开:李雅普诺夫漂移通过状态的二次型差分约束系统稳定性,SAC 的 TD 损失通过 Q 值的二次误差约束估计准确性。这种相似性源于动态系统优化的共性需求 —— 用可微的二次项量化偏差,并通过时序关联将长期目标转化为局部优化问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/92761.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/92761.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WireShark:非常好用的网络抓包工具

文章目录一、写在前面二、安装三、使用1、入门使用&#xff08;1&#xff09;打开软件&#xff08;2&#xff09;右键网卡&#xff0c;Start Capture(开始捕获)2、界面详细介绍3、过滤器设置一、写在前面 Wireshark是使用最广泛的一款「开源抓包软件」&#xff0c;常用来检测网…

WEB技术演进史:从C/S到微服务架构

WEB技术 HTTP协议和B/S 结构 操作系统有进程子系统&#xff0c;使用多进程就可以充分利用硬件资源。进程中可以多个线程&#xff0c;每一个线程可以被CPU调度执行&#xff0c;这样就可以让程序并行的执行。这样一台主机就可以作为一个服务器为多个客户端提供计算服务。 客户端…

win11中Qt5.14.0+msvc2019+opencv4.9配置

本文主要研究由msvc编译的opencv在QT中的配置&#xff0c;opencv可以是官网直接下载的版本&#xff0c;也可以是msvc(例如vs2019)通过cmake编译 contrib功能的opencv版本&#xff0c;这2种版本对qt版本没有严格要求&#xff0c;但是若在cmake中选择了with_qt功能&#xff0c;那…

【listlist模拟】

list&list模拟1.list使用2、list模拟附录1.list使用 list常见接口不做介绍&#xff0c;跟前面vector有相似之处&#xff0c;跟数据结构list基本一样。  因为list使用带头的双向循环链表实现的&#xff0c;不能用小标访问&#xff0c;只能用迭代器或范围for访问 list有成…

在CentOS 7上将PostgreSQL数据库从默认路径迁移到自定义目录

在CentOS 7上将PostgreSQL数据库从默认路径迁移到自定义目录&#xff0c;需遵循以下步骤。假设原数据目录为“/var/lib/pgsql/12/data”&#xff0c;目标目录为“/new/path/pgdata”。 1、步骤概览 停止PostgreSQL服务创建新目录并设置权限复制数据文件&#xff08;保留权限&am…

C语言基础06——结构体(struct)

一、结构体的概念结构体&#xff08;struct&#xff09;是 C 语言中一种自定义数据类型&#xff0c;它允许你将不同类型的数据项组合在一起&#xff0c;形成一个新的复合数据类型。想象一下&#xff1a;如果要表示一个 "学生"&#xff0c;需要包含姓名&#xff08;字…

小白入门指南:Edge SCDN 轻松上手

在互联网飞速发展的当下&#xff0c;网站性能与安全至关重要。对于小白而言&#xff0c;Edge SCDN 可能是个陌生概念&#xff0c;但它却能极大助力网站运营。本文将用简单易懂的语言&#xff0c;带大家了解 Edge SCDN&#xff0c;探讨其运用方法。​一、Edge SCDN 是什么&#…

探秘酵母单杂交技术:解锁基因调控的密码

在生命科学研究领域&#xff0c;基因的表达调控机制一直是科学家们关注的焦点。为了深入探究这一复杂过程&#xff0c;众多先进技术应运而生&#xff0c;酵母单杂交技术便是其中极具价值的一项&#xff0c;它为研究 DNA 与蛋白质之间的相互作用提供了独特视角与有效手段。酵母单…

大模型备案要点一次过【附材料清单详解】

最近&#xff0c;广东省公布了最新一批的大模型备案&#xff08;登记&#xff09;名单&#xff0c;很多准备要做大模型备案的企业都在纷纷咨询&#xff1a;“大模型备案的周期是多久&#xff1f;”“做大模型备案有什么要求&#xff1f;”“做大模型备案一共需要准备多少材料&a…

启保停-----------单相照明灯的接法

一.单相照明灯-K21使用的器材,单相电能表,空开,插座,开关,灯泡二.启 保 停1.需要用到的器材1.空开2.三相电机3.接触器4.熔断器5.按钮2.电路的作用按按钮 运转 在按按钮 停止运转3.电动4.加上辅助触点 控制电路5.在加上按钮 停止电路

TF-IDF:信息检索与文本挖掘的统计权重基石

本文由「大千AI助手」原创发布&#xff0c;专注用真话讲AI&#xff0c;回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我&#xff0c;一起撕掉过度包装&#xff0c;学习真实的AI技术&#xff01; 1. 背景与定义 TF-IDF 是一种统计加权方法&#xff0c;用于衡量词语在…

[论文阅读] (41)JISA24 物联网环境下基于少样本学习的攻击流量分类

《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座&#xff0c;并分享给大家&#xff0c;希望您喜欢。由于作者的英文水平和学术能力不高&#xff0c;需要不断提升&#xff0c;所以还请大家批评指正&#xff0c;非常欢迎大家给我留言评论&#xff0c;学术路上期…

react中父子数据流动和事件互相调用(和vue做比较)

前言&#xff1a;react中父子数据流动和事件互相调用&#xff0c;父组件给子组件数据&#xff0c;父组件调用子组件的事件&#xff0c;同理&#xff0c;子也可以调用父的数据和传值。react是单向数据流&#xff0c;具体使用跟vue是不同的。1、父组件的数据传给子组件&#xff0…

杰理手表-增加提示音-提示音音量调整--使用提示音

本章节非常详细的介绍这个提示音的增加-调整-使用&#xff0c;其余耳机包之类的也是差不多的&#xff01;&#xff01; 目录 1.添加自己需要用的提示音 2.根据添加的提示音-代码中配置 1.在tone_player.h中枚举里添加本次提示音的名称 2.把定义好的提示音放到tone_player.…

数据库的基本操作(视图,存储,触发器)

1、视图&#xff08;1&#xff09;什么是视图视图是虚拟表&#xff0c;是基于查询结果的可视化表&#xff0c;视图的作用有&#xff1a;①简化复杂查询 ②限制数据访问 ③提供数据独立性 ④汇总数据&#xff08;2&#xff09;怎么创建视图创建视图 CREATE OR REPLACE VIEW 视图…

Pytest项目_day13(usefixture方法、params、ids)

usefixture 我们还可以使用mark.usefixtures来调用fixture 这样相比在传入参数处调用fixture&#xff0c;会更加直接 但是如果我们在一个测试用例中使用了多个usefixtures&#xff0c;那么测试用例会先调用离他最近的那个fixtureparams fixture中还可以带参数 当我们用request.…

Rust 异步生态实战:Tokio 调度、Pin/Unpin 与零拷贝 I/O

&#x1f31f; Hello&#xff0c;我是蒋星熠Jaxonic&#xff01; &#x1f308; 在浩瀚无垠的技术宇宙中&#xff0c;我是一名执着的星际旅人&#xff0c;用代码绘制探索的轨迹。 &#x1f680; 每一个算法都是我点燃的推进器&#xff0c;每一行代码都是我航行的星图。 &#x…

通用 maven 私服 settings.xml 多源配置文件(多个仓库优先级配置)

<?xml version"1.0" encoding"UTF-8"?> <settings xmlns"http://maven.apache.org/SETTINGS/1.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/SETTINGS/1.0.…

AT F-Intervals 题解

简化题意&#xff1a; 有 nnn 个区间&#xff0c;保证所有区间同时覆盖一个点&#xff0c;每次将区间平移一个单位&#xff0c;问使得区间两两不交的最小操作数&#xff08;端点处可重叠&#xff09;。n≤5000。l,r≤231−1n\leq 5000。l,r\leq 2^{31}-1n≤5000。l,r≤231−1。…

《飞算Java AI:从安装到需求转实战项目详细教学》

前引&#xff1a;在当今快速发展的技术环境中&#xff0c;人工智能&#xff08;AI&#xff09;与编程语言的结合为开发者提供了前所未有的便利。飞算Java AI作为一款智能化编程工具&#xff0c;能够显著提升Java开发效率&#xff0c;减少重复性工作&#xff0c;并帮助开发者更专…