强化学习鱼书（10）——更多深度强化学习的算法

强化学习鱼书（10）——更多深度强化学习的算法

news/2025/6/6 17:46:30/文章来源:https://blog.csdn.net/weixin_43109325/article/details/148398573

在这里插入图片描述
：是否使用环境模型（状态迁移函数P(s’|s,a)和奖
励函数r(s，a，V)）。不使用环境模型的方法叫作无模型（model-free）的方法，使用环境模型的方法叫作有模型（model-based）的方法。
模型的方法可以分为两种，一种是提供了环境模型的方法，另一种是训练环境模型的方法。

如果提供了环境模型，那么智能代理可以通过规划（planning）来解决问题，而不采取任何行动。
如果没有提供环境模型，则可以考虑根据从环境中获得的经验来训练环境模型（行动-奖励-策略/价值优化）。训练的环境模型除了可以用于规划之外，还可以用于评估和改进策略。

策略梯度法的改进算法

A3C

A3C是 Asynchronous Advantage Actor-Critic 的缩写。
在这里插入图片描述
本地网络在各自的环境中独立进行训练。然后它们会将作为训练结果的梯度发送到全局网络。全局网络使用来自多个本地网络的梯度异步更新权重参数。这样，在更新全局网络的权重参数的同时，可以定期同步全局网络和本地网络的权重参数。
多个智能代理的并行运行，可以不依赖于经验回放而减少数据的相关性。
另外，A3C的Actor-Critic将共享神经网络的权重。（需要多个环境并行同时运行）

A2C是同步更新参数的方法，它不采取异步更新参数的方式。（多了采样过程）
在这里插入图片描述

更详细的说明
https://zhuanlan.zhihu.com/p/65068744

DDPG

DDPG 是 Deep Deterministic Policy Gradient （深度确定性策略梯度法）的缩写。从名字就能想到它的含义，它是针对连续行动空间问题而设计的算法。神经网络可以将行动作为连续值直接输出

回顾DQN：

经验回放：取出一个batch的数据
目标网络：一个表示Q函数的原始网络（这个网络叫作qnet），再准备了一个具有相同结构的网络计算TD目标的值（这个网络叫作qnet_target），定期与qnet的权重同步，在其余的时间里保持权重参数固定。

DDPG：
在这里插入图片描述
(1)中输出的行动a是连续值，该值可直接作为Q的输入。这样就能通过两个神经网络进行反向传播了。通过反向传播可以求梯度▽q（这里的是Q函数的输出）。这样就能使用梯度▽q更新参数了。
(2)是在DQN中进行的Q学习

更详细的说明
https://zhuanlan.zhihu.com/p/111257402

TRPO 和 PPO

https://zhuanlan.zhihu.com/p/111049450

DQN的改进算法

分类 DQN

DQN在Q学习中要训练的是由Q函数这个期望值所表示
的值。进一步扩展这个思路，不要训练Q函数这个期望值，而要训练“分布”。这个思路叫：分布强化学习(distributional reinforcement learning)。分布强化学习将训练收益Zpai(s,a)的概率分布。

Noisy Network

DQN根据s-greedy算法选择行动。也就是说，DQN会以e的概率随机选择行动，以1-e的概率选择贪婪的行动(函数值最大的行动)。在实践中，我们常常要进行“调度设置” (schedule setting),即随着回合的发展，逐渐降低e的值

代替e：Noisy Network：
在输出侧的全连接层中使用有噪声的全连接层。在有噪声的全连接层中，权重会被建模为正态分布的均值和方差，并在每次前向传播时从正态分布对权重进行采样。

Rainbow

Ape-X/R2D2/NGU

在多个运行环境中进行训练的做法也被称为“分布式强化学习”

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.pswp.cn/news/908301.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

9.axios底层原理，和promise的对比（2）

9.axios底层原理，和promise的对比（2）

😺😺😺 和promise的对比完全可以直接使用 Promise 来发 HTTP 请求，比如用原生 fetch Promise 就可以实现网络请求功能👇 ✅ 用 Promise fetch 的写法（原生） fetch(‘https://api.example.c…

阅读更多...

什么是数据孤岛？如何实现从数据孤岛到数据共享？

什么是数据孤岛？如何实现从数据孤岛到数据共享？

目录一、数据孤岛是什么？ （一）数据孤岛的定义 （二）数据孤岛怎么形成的二、数据孤岛带来的问题 （一）数据冗余和不一致 （二）决策效率低下 （三&#xf…

阅读更多...

MQTT入门实战宝典：从零起步掌握物联网核心通信协议

MQTT入门实战宝典：从零起步掌握物联网核心通信协议

MQTT入门实战宝典：从零起步掌握物联网核心通信协议前言物联网时代，万物互联已成为现实，而MQTT协议作为这个时代的"数据总线"，正默默支撑着从智能家居到工业物联的各类应用场景。本文将带你揭开MQTT的神秘面纱&#…

阅读更多...

I2C通信讲解

I2C通信讲解

I2C总线发展史怎么在一条串口线上连接多个设备呢？ 由于速度同步线是由主机实时发出的，所以主机可以按需求修改通信速度，这样在一条线上可以挂接不同速度的器件，单片机和性能差的器件通信，就输出较慢的脉冲信号&#x…

阅读更多...

Windows 10 IoT 系统深度定制指南：从环境搭建到工业部署

Windows 10 IoT 系统深度定制指南：从环境搭建到工业部署

目录一、Windows 10 IoT 架构特性与版本选型 1.1 核心架构设计 1.2 版本对比与选型建议二、开发环境搭建与硬件适配 2.1 工具链配置 2.2 硬件适配关键步骤三、系统定制流程详解 3.1 镜像定制（IoT Core Dashboard） 3.2 使用ICD（Im…

阅读更多...

k8s开发webhook使用certmanager生成证书

k8s开发webhook使用certmanager生成证书

1.创建 Issuer apiVersion: cert-manager.io/v1 kind: Issuer metadata:name: selfsigned-issuernamespace: default spec:selfSigned: {}2.Certificate（自动生成 TLS 证书） apiVersion: cert-manager.io/v1 kind: Certificate metadata:name: webhook…

阅读更多...

MyBatis-Plus深度全解：从入门到企业级实战

MyBatis-Plus深度全解：从入门到企业级实战

MyBatis-Plus深度全解：从入门到企业级实战一、为什么选择MyBatis-Plus？ 1.1 MyBatis的痛点 - 重复CRUD代码编写 - 分页功能实现复杂 - 缺少通用Service层封装 - 动态表名支持困难 - 多租户方案需自行实现1.2 MyBatis-Plus核心优势无侵入&#xff1a…

阅读更多...

【无标题】路径着色问题的革命性重构：拓扑色动力学模型下的超越与升华

【无标题】路径着色问题的革命性重构：拓扑色动力学模型下的超越与升华

路径着色问题的革命性重构：拓扑色动力学模型下的超越与升华一、以色列路径着色模型的根本局限 mermaid graph TB A[以色列路径着色模型] --> B[强连通约束] A --> C[仅实边三角剖分] A --> D[静态色彩分配] B --> E[无法描述非相邻关系] C --> F[忽…

阅读更多...

01 Deep learning神经网络的编程基础二分类--吴恩达

01 Deep learning神经网络的编程基础二分类--吴恩达

二分类 1. 核心定义二分类任务是监督学习中最基础的问题类型，其目标是将样本划分为两个互斥类别。设样本特征空间为 X ⊆ R n \mathcal{X} \subseteq \mathbb{R}^n X⊆Rn，输出空间为 Y { 0 , 1 } \mathcal{Y} \{0,1\} Y{0,1}，学习目标为…

阅读更多...

数据结构：递归：泰勒展开式（Taylor Series Expansion）

数据结构：递归：泰勒展开式（Taylor Series Expansion）

目录第一步：❓我们要解决什么？ 第二步：将其类比为求自然数和第三步：什么是每一项？ 第四步：定义要计算的每一项（term） 第五步：定义递归函数结构 🌳 调用…

阅读更多...

Hadolint：Dockerfile 语法检查与最佳实践验证的终极工具

Hadolint：Dockerfile 语法检查与最佳实践验证的终极工具

在容器化应用开发的浪潮中，Dockerfile 作为构建 Docker 镜像的核心配置文件，其质量直接影响着应用的安全性、稳定性和可维护性。然而，随着项目复杂度的增加，手动检查 Dockerfile 不仅耗时，还容易遗漏潜在问题。今天，我要向大家介绍一款强大的工具——Hadolint，它将彻底改…

阅读更多...

redis数据过期策略、淘汰策略

redis数据过期策略、淘汰策略

过期键的删除策略 1. 被动删除（惰性删除） 触发时机：当客户端尝试访问某个键时，Redis会先检查该键是否过期。就是说，我们不时时检查每个键是否过期，而是在使用到这个键时检查是否过期&a…

阅读更多...

ES 学习总结一基础内容

ES 学习总结一基础内容

ElasticSearch学习一、初识ES1、认识与安装2、倒排索引2.1 正向索引2.2 倒排索引 3、基本概念3.1 文档和字段3.2 索引和倒排 4 、 IK分词器二、操作1、 mapping 映射属性2、索引库增删改查3、文档的增删改查3.1 新增文档3.2 查询文档3.3 删除文档3.4 修改文档3.5 批处…

阅读更多...

鸿蒙任务项设置案例实战

鸿蒙任务项设置案例实战

目录案例效果资源文件与初始化 string.json color.json CommonConstant 添加任务首页组件任务列表初始化任务列表视图任务编辑页添加跳转任务目标设置模型（formatParams） 编辑页面详情页任务编辑列表项目标设置展示引入目标…

阅读更多...

DeepSeek-R1-0528重磅升级：三大突破重新定义AI生产力

DeepSeek-R1-0528重磅升级：三大突破重新定义AI生产力

2025年5月28日，中国AI领军企业深度求索（DeepSeek）正式发布DeepSeek-R1-0528版本，这是继2025年1月R1模型登顶中美App Store后，DeepSeek在通用大模型领域的又一次战略级突破。此次升级虽为小版本迭代，却在推理…

阅读更多...

【算法训练营Day07】字符串part1

【算法训练营Day07】字符串part1

文章目录反转字符串反转字符串II替换数字反转字符串题目链接：344. 反转字符串双指针法，两个指针的元素直接调转即可 class Solution {public void reverseString(char[] s) {int head 0;int end s.length - 1;while(head < end) {char temp …

阅读更多...

中国西部逐日1 km全天候地表温度数据集（TRIMS LST-TP；2000-2024）

中国西部逐日1 km全天候地表温度数据集（TRIMS LST-TP；2000-2024）

时间分辨率：日空间分辨率：100m - 1km共享方式：开放获取数据大小：474.31 GB数据时间范围：2000-01-01 — 2024-12-31元数据更新时间：2025-05-31 数据集摘要青藏高原是全球气候变化的敏感区域。地表温度&…

阅读更多...

PPT转图片拼贴工具 v1.0

PPT转图片拼贴工具 v1.0

软件介绍这个软件的作用就是将单个PPT的每一页转换为单独的图片，然后将图片进行拼接起来。但是我没有还没有解决一次性处理多个文件。效果展示如下： 软件安装软件源码 import os import re import win32com.client from PIL import Imagedef con…

阅读更多...

嵌入式学习笔记DAY33（网络编程——TCP）

嵌入式学习笔记DAY33（网络编程——TCP）

一、网络架构 C/S （client/server 客户端/服务器）：由客户端和服务器端两个部分组成。客户端通常是用户使用的应用程序，负责提供用户界面和交互逻辑 ，接收用户输入，向服务器发送请求，并展示服务…

阅读更多...

抛砖引玉：RadarDet4D，NuScenes数据集Radar模态目标检测第二名（即将开源）

抛砖引玉：RadarDet4D，NuScenes数据集Radar模态目标检测第二名（即将开源）

这几年一直在关注自动驾驶3D目标检测相关的研究。在NuScenes数据集上有很多经典的模型被提出并得到了验证，纯视觉3D目标检测经典的方法有BEVFormer、BEVDet系列、DETR3D、Sparse4D等工作，基于LiDAR的有CenterPoint、多模态有BEVFusion、DAL、UniTR等。 …

阅读更多...

最新文章