【PPO】小白的强化学习算法笔记

参考视频

零基础学习强化学习算法:ppo

基础概念

在这里插入图片描述

  • environment环境
  • agent:智能体,玩游戏的你
  • state:当前状态,observation看到的部分,有的游戏只能看见state的一部分
  • action:agent做出的动作
  • reward:环境给的奖励或惩罚
其他重要概念在这里插入图片描述

注:

  • 训练和推理时不常总是使用最高的策略函数,因为要随机性多样性,不然没办法训练,输出也单一
  • 状态转移是否确定:比如开宝箱时是随机的
复习期望的概念

期望是每个可能结果的概率与其结果的乘积之和
在这里插入图片描述
训练目的:训练一个policy网络使得在各种state下,给出action,得到return的期望最大。

数学推理

接下来就是反向传播的数学推理。。。讲的很精彩
在这里插入图片描述

实际训练

玩n场游戏,每个action按概率取样而不是选择最大的。
on policy更新策略:
在这里插入图片描述

优化

之前给的公式表明:如果某个trajectory给出的action得到的reward大于零,那么就增加这个trajectory里所有状态下的采取这个action的概率。反之就减小。就很直观
在这里插入图片描述
需要优化的点:

  • reward应该看整个游戏结束之后而不是只是当前trajectory结束。就像说,以退为进,其实是进的。
  • 对上一点的修正,影响是随着步数衰减的。

因此修正公式:

  1. 对reward的求和:改为从当前步t到整个游戏结束的求和

  2. 引入衰减因子:距离当前步数越远影响越小,指数衰减。
    在这里插入图片描述

  3. 对于reward增加一个baseline以增快训练速度
    在这里插入图片描述
    不是这个方向的后面不学了。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/899168.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/899168.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flink介绍与安装

Apache Flink是一个在有界数据流和无界数据流上进行有状态计算分布式处理引擎和框架。Flink 设计旨在所有常见的集群环境中运行,以任意规模和内存级速度执行计算。 一、主要特点和功能 1. 实时流处理: 低延迟: Flink 能够以亚秒级的延迟处理数据流,非常…

深入解析 JVM 内存区域及核心概念

深入解析 JVM 内存区域及核心概念 Java 虚拟机(JVM)内部划分了多个内存区域,每个区域存储不同类型的数据并承担不同的职责。本文将详细介绍以下内容: 程序计数器:记录当前线程正在执行的字节码指令及其“行号”信息&a…

Java操作RabbitMQ

文章目录 Spring集成RabbitMQ1. AMQP&SpringAMQP2. SpringBoot集成RabbitMQ3. 模型work模型 4.交换机Fanout交换机Direct交换机Topic交换机 5.声明式队列和交换机基于API声明基于注解声明 6.消息转换器 Spring集成RabbitMQ 1. AMQP&SpringAMQP AMQP(高级消…

Kotlin泛型: 协变|逆变|不变

引言 无论java 通配符上限还是下限,都多少存在缺陷,要么存不安全,要么取不安全。而kotlin就解决这个问题。让out 纯输出, 让in纯输入。 java这块知识: java泛型的协变、逆变和不变-CSDN博客 协变 生产者out T 协变…

【Excel使用技巧】某列保留固定字段或内容

目录 ✅ 方法一:使用 Excel 公式提取 body 部分 🔍 解释: ✅ 方法二:批量处理整列数据 🚨 注意事项 🚨 处理效果 我想保留Excel某一列的固定内容,比如原内容是: thread entry i…

C# System.Text.Encoding 使用详解

总目录 前言 在C#编程中,处理字符串和字节数组之间的转换是一个常见的任务。System.Text.Encoding类及其派生类提供了丰富的功能,帮助开发者实现不同字符编码之间的转换。本文将详细讲解System.Text.Encoding类的使用方法,包括常用编码的介绍…

Pre-flash和Main flash

在相机拍照过程中,Pre-flash(预闪光) 和 Main flash(主闪光) 是常见的两种闪光灯使用模式,通常用于提高低光环境下的拍摄质量,尤其在自动曝光(AE)和自动对焦(…

Kafka 4.0 发布:KRaft 替代 Zookeeper、新一代重平衡协议、点对点消息模型、移除旧协议 API

KRaft 全面替代 ZooKeeper Apache Kafka 4.0 是一个重要的里程碑,标志着第一个完全无需 Apache ZooKeeper 运行的主要版本。 通过默认运行在 KRaft 模式下,Kafka 简化了部署和管理,消除了维护单独 ZooKeeper 集群的复杂性。 这一变化显著降…

SFT实验报告

大模型微调实验报告* 实验目标 梳理大模型微调方法,评估各种基座和微调方法的实验效果。 基础模型 \1.Llama \2.Qwen \3.Chatglm4 \4. 微调策略 LoRA系列 低秩适配(LoRA)的核心思想是冻结原始参数,通过低秩分解引入可训…

LLM - R1 强化学习 DRPO 策略优化 DAPO 与 Dr. GRPO 算法 教程

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/146533892 在强化学习算法中,DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization),通过解耦裁剪和动态采样策…

美摄科技智能汽车视频延迟摄影解决方案,开启智能出行新视界

在智能汽车时代,车载影像技术正以前所未有的速度发展,成为提升驾乘体验和满足用户多样化需求的关键因素。美摄科技凭借其卓越的技术实力和创新精神,推出了智能汽车视频延迟摄影解决方案,为智能汽车行业带来了一场视觉盛宴。 一、…

[250325] Claude AI 现已支持网络搜索功能!| ReactOS 0.4.15 发布!

目录 Claude AI 现已支持网络搜索功能!ReactOS 0.4.15 发布! Claude AI 现已支持网络搜索功能! 近日,Anthropic 公司宣布,其 AI 助手 Claude 现在可以进行网络搜索,为用户提供更及时、更相关的回复。这项新…

代码规范之Variable Names变量名

代码规范之Variable Names变量名 golang中 官方文档:https://go.dev/wiki/CodeReviewComments#variable-names Variable names in Go should be short rather than long. This is especially true for local variables with limited scope. Prefer c to lineCoun…

Mybatis_plus

前言 Mybatis_plus 是在 mybatis 的基础上进行了增强,在 MyBatis 的基础上只做增强不做改变,为简化开发、提高效率而生。本文章只做简单的使用介绍,更加详细的内容大家可以参考官网。 下面是mybatis_plus 官网地址: mybatis_plu…

深圳问顶安全科技有限公司asktopsec是做什么的?

深圳问顶安全科技有限公司,是一家专业的AI与应用安全公司。 全球领先的AI、Android、IOS应用安全解决方案提供商,官网:https://asktopsec.com 问顶安全主要为企业提供AI和应用安全服务 移动应用安全检测、移动应用安全加固、AI智能体安全、AI…

鸿蒙OS 5 架构设计探秘:从分层设计到多端部署

文章目录 鸿蒙OS架构设计探秘:从分层设计到多端部署一、鸿蒙的分层架构设计二、模块化设计的精髓三、智慧分发设计:资源的动态调度四、一次开发,多端部署的实践总结与思考 鸿蒙OS架构设计探秘:从分层设计到多端部署 最近两年来&a…

idea 没有 add framework support(添加框架支持)选项

在 IntelliJ IDEA 2023 中,若需通过设置手动添加 “添加框架支持” 菜单项,可按照以下步骤操作: 手动添加 “添加框架支持” 菜单项 打开设置 点击顶部菜单栏的 File(文件) -> Settings(设置&#xff09…

计算机网络--传输层(2)

传输层核心机制深度解析 一、可靠传输实现机制 1. 校验和机制 技术原理: 使用16位二进制反码求和算法,计算范围包括TCP伪首部(12字节)、TCP首部(20字节)和数据部分接收端重新计算校验和,若与…

再探带权并查集

典型例题 Acwing 权值 故名思义,在带权并查集中,我们需要让每个节点携带一个**“权值”**。 那么这个权值应该是什么呢?其实答案就在并查集当中。 由于在并查集当中我们可以在 O ( 1 ) O(1) O(1) 时间内找到一个节点的根节点,那…

Vala编成语言教程-构造函数和析构函数

构造函数 Vala支持两种略有不同的构造方案:我们将重点讨论Java/C#风格的构造方案,另一种是GObject风格的构造方案。 Vala不支持构造函数重载的原因与方法重载不被允许的原因相同,这意味着一个类不能有多个同名构造函数。但这并不构成问题&…