强化学习入门:价值、回报、策略概念详解

前言

 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》
 限于篇幅原因,请读者首先看下历史文章:
 马尔科夫过程
 马尔科夫奖励过程
 马尔科夫奖励过程二
 RL框架Gym简介
 Gym实现CartPole随机智能体
 交叉熵方法数学推导
 强化学习入门:交叉熵方法实现CartPole智能体

1、出发点

 原定本篇博客该介绍bellman方程的,但发现自己对于一些基础概念的计算和理解有点儿模糊,于是本篇先恶补一下目前RL所出现的一些基础概念,并搭配详细的计算公式。

2、示例

在这里插入图片描述
 这里以书中一个例子来说明一些概念,在上图中,每个灰色节点表示状态,每条边上实线圆表示状态转移概率,每个虚线圆则表示状态转移所获得的奖励。
 下面将举个视为片段的例子,在RL中也被称为“状态链”。
片段:家–> 咖啡 --> 计算机 --> 家。
 在引入了片段后,就能解释何为“回报”定义了:
 这里先贴下回报公式,对于一个片段来说,在 t t t时刻的回报定义为:
G t = R t + 1 + γ R t + 2 + . . . = ∑ k = 0 ∞ γ k R t + k + 1 G_t = R_{t+1} + \gamma R_{t+2} +... = \sum_{k=0}^{\infty}\gamma^kR_{t+k+1} Gt=Rt+1+γRt+2+...=k=0γkRt+k+1
其中 γ \gamma γ是超参数, R t R_t Rt表示 t t t时刻奖励。
 这里有个问题,对于一个智能体来说,可执行的状态链太多了,实际上回报应用的不太多,因此,这里引入了一个状态的期望回报(对大量状态链求回报的期望),即状态的价值
V ( s ) = E [ G ] = E [ ∑ k = 0 ∞ γ k R t + k + 1 ] V(s) = E[G] = E[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}] V(s)=E[G]=E[k=0γkRt+k+1]
 okay,现在拿到公式了,现在计算状态“家”的价值:

家–>家家–>咖啡
概率0.60.4
奖励11

 则根据价值的定义:总共有两个状态链:则家的价值为
V ( 家 ) = 0.6 ∗ 1 + 0.4 ∗ 1 = 1.0 V(家) = 0.6*1 + 0.4*1 = 1.0 V()=0.61+0.41=1.0
 按照同样的道理:能得到其余状态的价值:

V ( c o f f e e ) = 2 × 0.7 + 1 × 0.1 + 3 × 0.2 = 2.1 V ( c o m p u t e r ) = 2 × 0.7 + 1 × 0.1 + 3 × 0.2 = 2.8 V(coffee) = 2×0.7 + 1×0.1 + 3×0.2 = 2.1 \\ V(computer) = 2×0.7 + 1×0.1 + 3×0.2 = 2.8 V(coffee)=2×0.7+1×0.1+3×0.2=2.1V(computer)=2×0.7+1×0.1+3×0.2=2.8

 在上述例子中,你其实就是智能体,你可以自由选择3个状态,并执行某一个状态链,进而获得最大的奖励:则从众多的状态链中选择出一个回报最大的状态链,就是策略的选择,即 π ( s ) \pi(s) π(s)

 而智能体优化目标常常是:选择何种策略,通常会伴随选择执行什么样动作,使得 π ( a ∣ s ) \pi(a|s) π(as)最优。

总结

 本文只是介绍了一部分概念,后续会逐步添加新的概念,从感性上认识下RL的一些基础概念。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/84897.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于“数智立体化三维架构”框架的医疗数智化机制研究

1 研究背景与框架基础 当前,全球医疗服务体系正经历深刻的数智化转型浪潮,人工智能、大数据、云计算等新一代信息技术与医疗健康领域的融合不断深入,催生了医疗服务模式的革命性变化。在我国,数智化技术已成为提升基层卫生服务质量、促进医疗服务公平可及、增进百姓健康福…

OpenCV CUDA模块图像变形------对图像进行旋转操作函数rotate()

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 该函数用于对图像进行 GPU 加速的旋转操作,支持指定旋转角度、缩放中心偏移和插值方法。是 OpenCV CUDA 模块中用于图像旋转的核心函…

【面板数据】中国与世界各国新能源汽车进出口数据-分类别与不分类别(2017-2024年)

新能源汽车作为中国制造高质量发展的重要代表,其进出口数据不仅反映了我国技术实力与产业格局的变化,也是理解全球绿色交通趋势、制定国家战略决策的重要依据。目前国内主流定义判断标准主要参考中国工信部于2009年发布的《新能源汽车生产企业及产品准入…

亚马逊云服务器(AWS)会限制用户使用吗?深度解读AWS资源政策

一、AWS的资源逻辑:为什么说"不限速"? AWS采用"按需分配"的资源配置模式,其核心限制并非来自人为设定,而是取决于: 实例类型配置(如t2.micro默认CPU积分制) 账户服务配额…

顶级视频生成大模型分析:Seedance 1.0 Pro (字节跳动) - 新晋榜首

📖 目录 一、概述与市场格局 1.1 AI视频生成技术现状1.2 主要竞争者概览1.3 评测标准与方法 二、顶级模型详细分析 2.1 Seedance 1.0 Pro (字节跳动) - 新晋榜首2.2 OpenAI Sora - 行业先驱者2.3 Google Veo 3 - 音视频一体化领航者2.4 快手可灵 2.0 - 国产之光…

【Spring源码核心篇-08】spring中配置类底层原理和源码实现

Spring源码核心篇整体栏目 内容链接地址【一】Spring的bean的生命周期https://zhenghuisheng.blog.csdn.net/article/details/143441012【二】深入理解spring的依赖注入和属性填充https://zhenghuisheng.blog.csdn.net/article/details/143854482【三】精通spring的aop的底层原…

【无标题】在 4K 高分辨率(如 3840×2160)笔记本上运行 VMware 虚拟机时平面太小字体太小(ubuntu)

✅ 方法一:写入 ~/.xprofile(推荐) 这个文件会在你登录图形界面前自动执行,适合设置缩放比例等桌面配置。 1. 打开 .xprofile 文件(如果没有会自动创建): nano ~/.xprofile2. 写入以下内容&a…

「Linux文件及目录管理」目录结构及显示类命令

Linux文件系统的目录结构 Linux文件系统采用严格的树形结构,所有文件和目录都从根目录(/)开始延伸。以下是主要目录的详细说明: /bin:存放系统启动和运行所必需的二进制可执行文件,如ls、cp、mv等基本命令。/etc:存放系统配置文件,如/etc/passwd(用户账户信息)、/et…

人工智能学习13-Numpy-规律数组生成

人工智能学习概述—快手视频 人工智能学习13-Numpy-规律数组生成—快手视频 NumPy(Numerical Python)是 Python 的一种开源的数值计算扩展。 这种工具可用来存储和处理大型矩阵,比 Python 自身的嵌套列表 (nested list structure…

Spring Boot 集成 Redis 实战教程

前言 在高并发、大数据量的应用场景中,缓存是提升系统性能的关键技术。Redis 凭借其卓越的读写性能、丰富的数据结构和高可用性,成为开发者常用的缓存工具。本教程将严格依据Spring 官方文档与Redis 官方文档,详细介绍 Spring Boot 与 Redis…

龙蜥开发者说:我的龙蜥开源之旅 | 第 32 期

「龙蜥开发者说」第 32 期来了!开发者与开源社区相辅相成,相互成就,这些个人在龙蜥社区的使用心得、实践总结和技术成长经历都是宝贵的,我们希望在这里让更多人看见技术的力量。本期故事,我们邀请了龙蜥社区开发者潘珏…

在mac上安装sh脚本文件

要将 jd-gui.sh 脚本转换为在 macOS ARM 系统上带有自定义图标的可点击运行的程序,你可以通过创建一个应用程序包(.app)来实现。以下是详细步骤: 步骤 1:创建应用程序包目录结构 应用程序包实际上是一个特殊的目录&a…

用bilibili一个讲座视频,生成一本科普书籍

用bilibili一个讲座视频,生成一本科普书籍 一、功能介绍1.1 智能文本处理1.2 知识提炼与结构化1.3 专业知识普及1.4 自动化书籍生成1,5 大规模处理能力二、技术特点三、应用意义3.1 教育领域3.2 研究领域3.3 内容创作3.4 企业应用四、创新价值五、使用场景示例六、操作步骤6.1 …

黑马教程强化day3-1

目录 一、File1.定义:2.创建File类的对象3.File提供的判断文件类型、获取文件信息功能4.File提供的创建的方法5.File类删除文件的功能6.File提供的遍历文件夹的方法代码演示 二、递归(了解递归算法,以便实现多级遍历找文件)1.定义…

milvus 总结

1. milvus 的默认 admin 角色账号 root 的密码 为 Milvus 2. 最开始使用命令: docker-compose -f milvus-standalone-docker-compose.yml up -d 启动 milvus 后,使用 attu 登录 Milvus 是不需要输入账号/密码的,可以使用如下方式开启 mi…

基于docker技术的单主机环境模拟测试批量客户端

EX. 任务背景 近期接到一个需求是在一个高性能服务器上,模拟启动多个待测试客户端的场景,但这个客户端程序有点特殊,设置了守护模式,并且需要管理员权限会监控系统的/dev/mem节点,单个环境中只能启动一个。 当前的测…

windows上用vnc viewer 能连接mac,不能连ubuntu

如果 VNC Viewer 可以连接 macOS,但无法连接 Ubuntu,通常是由于 Ubuntu 上的 VNC 服务配置问题或网络限制导致的。以下是逐步排查和解决方案: 1. 确认 Ubuntu 上已安装并运行 VNC 服务 (1) 检查是否安装了 VNC 服务器 Ubuntu 常用的 VNC 服…

Electron-vite【实战】MD 编辑器 -- 编辑区(含工具条、自定义右键快捷菜单、快捷键编辑、拖拽打开文件等)

最终效果 页面 src/renderer/src/App.vue <div class"editorPanel"><div class"btnBox"><divv-for"(config, key) in actionDic":key"key"class"btnItem":title"config.label"click"config.a…

没有宝塔面板的服务器上的WordPress网站打包下载到本地?

在服务器上部署的wordpress博客站&#xff0c;没有宝塔面板&#xff0c;怎么将服务器上的wordpress打包下载到本地&#xff1f; 作者: 晓北斗NorSnow 晓北斗动态视觉设计师&#xff0c;岚度视觉工作室执行人&#xff1b;主要从事展厅视频制作、图形工作站销售、AIGC研究&#…

Atcoder Beginner Contest 410 题解报告

零、前言 经过七七四十九天的分别&#xff0c;本期 ABC 题解又和大家见面啦&#xff01; 经过七周的奋勇杀题&#xff0c;我终于达成了三个小心愿&#xff1a; 不吃罚时AK上金排名 100 100 100 以内 且 Rated&#xff08;悲催的是&#xff0c;我 ABC400 排名两位数但没Rate…