连续空间强化学习:策略输出的两种形态 —— 概率分布与确定性动作

在强化学习的世界里,智能体与环境的交互核心是 “动作选择”。当面对离散动作空间(如围棋的落子点、游戏的按键操作)时,智能体可以直接枚举或概率选择有限的动作;但在连续动作空间中(如机器人关节角度、无人机加速度、温度控制的数值),动作是无限的,智能体如何 “输出” 动作就成了关键问题。

今天我们就聚焦连续空间强化学习中策略的两种核心输出形式:随机策略(输出概率分布参数)确定性策略(输出具体动作值),看看它们如何平衡 “探索未知” 与 “利用已知”,以及各自在实际场景中的应用逻辑。

一、随机策略:用概率分布拥抱不确定性

随机策略的核心哲学是:不直接给出 “最优动作”,而是描述 “动作的可能性”。通过概率分布的随机性,智能体既能大概率选择已知较好的动作,又能小概率尝试新动作,自然实现探索与利用的平衡。

1. 为什么是概率分布?

连续空间的动作是无限的(比如 “室内温度调节” 可以是 18.5℃、23.3℃等任意值)。如果智能体每次都输出一个固定动作,很容易陷入 “局部最优”—— 比如一直用 22℃,却不知道 21.5℃能更节能。

概率分布则像一个 “灵活的指南针”:

  • 大概率指向已知较好的动作(利用);

  • 小概率覆盖其他可能(探索)。

    随着训练深入,分布会逐渐向最优动作收缩,实现 “从探索到收敛” 的过程。

2. 概率分布的参数:以高斯分布为例

连续空间中最常用的是高斯分布(正态分布),因为它能很好地描述连续数值的不确定性。策略网络的输出是高斯分布的两个核心参数:

  • 均值(μ):分布的中心,代表 “当前认为最可能最优的动作”(比如机械臂关节的目标角度 30°);

  • 标准差(σ):分布的离散程度,代表 “探索范围”(σ 越大,动作采样越分散,探索性越强)。

举个例子:

在机械臂抓取任务中,策略网络输出 μ=30°(关节角度),σ=5°。此时智能体会从这个分布中采样动作,可能是 28°、32°、甚至 25°(但大概率集中在 30° 附近)。如果某次 28° 的动作成功抓取,后续训练会让 μ 向 28° 靠近,同时 σ 可能减小(减少无效探索)。

3. 实际场景:无人机姿态控制

无人机的 “俯仰角” 控制是典型的连续动作任务(范围 - 10°~10°)。采用随机策略时:

  • 策略网络输出高斯分布参数 μ=2°,σ=1°;

  • 实际动作从该分布中采样,可能是 1.8°、2.1°、甚至 2.5°;

  • 若 2.1° 时无人机稳定性更好,奖励更高,网络会调整 μ 逐渐接近 2.1°,σ 缩小到 0.5°(聚焦更优动作)。

二、确定性策略:直接输出 “最优解”

确定性策略的逻辑更直接:在当前状态下,直接输出一个固定的动作值,即 “我认为这个动作就是最优的”。它不依赖随机性,而是通过外部机制实现探索。

1. 为什么需要确定性输出?

  • 效率更高:无需采样和分布计算,直接输出动作,适合高维连续空间(比如 100 个关节的机器人);

  • 场景适配:某些任务的最优动作是 “确定的”(比如稳定行走的机器人,每个时刻的关节角度有明确最优值)。

2. 如何解决探索问题?

确定性策略本身没有随机性,若直接用输出动作,可能 “一条道走到黑”(比如一直用 22℃,永远发现不了 21.5℃的优势)。因此需要人工添加探索噪声

  • 比如在输出动作上叠加小幅度的随机噪声(如高斯噪声);

  • 训练初期噪声大(鼓励探索),后期噪声衰减(聚焦最优动作)。

3. 实际场景:自动驾驶的油门控制

自动驾驶中,“油门开度” 是连续动作(0~100%)。采用确定性策略时:

  • 策略网络直接输出动作值 30%(当前认为最优的开度);

  • 实际执行时叠加 ±5% 的噪声,动作可能是 27%、32% 等;

  • 若 32% 时加速更平稳(奖励更高),网络会调整参数,让输出逐渐向 32% 靠近;

  • 训练后期噪声减小到 ±1%,最终稳定在最优值附近。

三、两种策略的核心区别与适用场景

维度随机策略(输出分布参数)确定性策略(输出具体动作值)
输出形式概率分布参数(如高斯分布的 μ 和 σ)具体动作值(如 30°、2.5m/s²)
随机性来源内置(从分布中采样)外部(人工添加噪声)
探索控制通过标准差 σ 调整(σ 越大探索越强)通过噪声幅度调整(初期大、后期小)
计算效率较低(需采样和分布参数优化)较高(直接输出动作)
典型算法PPO、SAC、REINFORCEDDPG、TD3
适用场景复杂环境(如机械臂精细操作、游戏 AI)高维动作空间(如多关节机器人)、最优动作稳定的场景

四、总结:没有 “最好”,只有 “最合适”

连续空间强化学习中,随机策略和确定性策略的核心目标都是找到 “最大化累积奖励的动作”,只是通过不同的输出形式平衡探索与利用:

  • 随机策略用概率分布 “自然探索”,适合复杂、未知环境;

  • 确定性策略用固定动作 “高效收敛”,依赖外部噪声探索,适合高维或最优动作明确的场景。

在实际应用中,选择哪种策略往往取决于任务特性(如动作维度、环境复杂度)。例如,机械臂装配任务常用 SAC(随机策略)处理精细操作,而多足机器人行走可能用 DDPG(确定性策略)提升效率。

随着强化学习的发展,两种策略的边界也在模糊(如 SAC 结合了随机策略的探索性和确定性策略的稳定性)。理解它们的底层逻辑,才能更好地选择和改进算法,让智能体在连续世界中更 “聪明” 地行动。

(注:文档为人类与 AI 共创)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/919518.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/919518.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IT运维背锅权限泄露?集中式管控如何化解风险?

在企业数字化转型的浪潮中,IT运维团队常常被推到风口浪尖。员工离职后权限未及时回收、账号共享导致数据泄露、跨系统权限配置不一致……这些问题一旦暴露,IT运维往往成为“背锅侠”。权限泄露不仅威胁企业数据安全,还可能导致合规性风险&…

2025 世界机器人大会启示录:机构学 × AI × 视频链路的融合之路

引言 2025 年 8 月 8 日,北京再一次成为全球瞩目的科技焦点——世界机器人大会盛大开幕。来自全球的 200 余家顶尖企业齐聚一堂,带来超过 1500 件展品,其中首发新品突破 100 款,涵盖了从工业制造、医疗康复到服务陪伴、特种作业的…

从零开始部署经典开源项目管理系统最新版redmine6-Linux Debian12

安装Debian 12 前面为了在windows上好开发,想要在windows上配置开发环境,以源码方式在本地部署运行,但经过好几天各种版本切换及配置组件库等各种操作后,证明windows上搭建redmine6支持的运行环境没有那么简单,后续有…

超长视频生成新突破!LongVie框架问世,创作不再受时长限制

超长视频生成新突破!LongVie框架问世,创作不再受时长限制 文章来源:Poixe AI 在AI技术飞速发展的当下,视频生成领域取得了令人瞩目的进步,尤其是在短视频创作方面。然而,当视频时长超过一分钟时&#xff…

MongoDB 查询方法与高级查询表(Python版)

目录 一、MongoDB3步快速安装 1.1​下载安装包 1.2运行安装程序​ 1.3​验证安装​打开CMD执行: 1.4 基本查询操作 二、高级查询操作符表 2.1 比较操作符 2.2 逻辑操作符 2.3 元素操作符 2.4 数组操作符 三、高级查询案例 3.1 复杂条件组合 3.2 数组查…

选型指南:如何为企业挑选合适的边缘计算网关

选型指南:如何为企业挑选合适的边缘计算网关在企业迈向智能化转型的道路上,选择一款合适的物联网边缘计算网关至关重要。面对众多型号和功能各异的网关产品,企业该如何做出正确抉择呢?​首先要考虑的是网关的兼容性。蓝蜂物联网边…

HT8693 音频功率放大器:赋能优质音频体验的核心之选

在音频设备快速迭代的当下,用户对音质表现、设备稳定性和场景适应性的需求日益提升,一款性能卓越的音频功率放大器成为连接音源与听觉享受的关键桥梁。HT8693 凭借双模式切换、强劲输出、智能保护等核心优势,为各类音频设备提供了可靠的性能支…

python+flask后端开发~项目实战 | 博客问答项目--模块化文件架构的基础搭建

项目功能概述: 首页(公开博客显示)博客发布与查询用户登录与注册底层MySQL数据库的动态响应与支持 简介:Flask作为Python的一个轻量级Web框架,以其灵活性和可扩展性,赢得了众多开发者的青睐。从本文开始,你将从0开始…

精品方案 | GCKontrol与OMNeT++联合仿真在机载网络性能分析中的应用

概述本文基于GCKontrol搭建了飞行仿真模型,并基于OMNeT搭建了机内网络系统,实现了不同专业、不同平台的模型集成与调试。通过这种联合仿真架构,能够模拟飞机在不同飞行状态下的网络性能,极大提高了性能评估的精度和可靠性。这不仅…

阶跃星辰 StepFun 入驻 GitCode 平台,带来工业级 AI 体验

在 2025 年的 AI 产业应用实践中,开发者面临三重核心挑战:​⚠️上下文窗口局限​:主流 AI 模型普遍受限于 4K-32K 的上下文长度,导致技术方案文档需被强制拆分处理,破坏架构设计的连贯性。 ​⚠️跨行业文档识别缺陷​…

亚马逊新品爆单策略:从传统困境到智能突破

新品上架,是每个亚马逊卖家最期待又最煎熬的阶段。我至今记得一款新品上线后的第一周:每天看着广告费像流水一样烧掉,单量却迟迟不见起色。后台的ACOS一路飙升,几天时间,我的预算已经消耗了一大半。那种“钱花了&#…

第7章 React性能优化核心

性能优化是React开发中的重要主题,直接影响用户体验和应用成功。本章将深入探讨React性能优化的核心技术和最佳实践,从组件记忆化到Bundle优化,帮你掌握构建高性能React应用的关键技能。 通过本章学习,你将掌握如何识别性能瓶颈、选择合适的优化策略,以及在实际项目中应用…

docker CI操作演示分享(第四期)

引言java项目:1、将项目通过maven进行编译打包2、将文件上传到指定的服务器中3、将war包放到tomcat的目录中4、通过Dockerfile将tomcat和war包转成一个镜像,由docker-compose去运行容器项目更新后:将上述流程再次的从头到尾的执行一次go项目&…

Kubernetes 的 YAML 配置文件-kind

Kubernetes的YAML配置文件–kind 在 Kubernetes 的 YAML 配置文件中,kind: 字段用于指定你要创建的资源对象类型。Kubernetes 支持多种资源类型,它们可以分为以下几大类: 一、核心资源类型(常用) 1. Pod 描述:最小的部署单元,包含一个或多个容器。 特点:临时性(Pod …

Tumblr长文运营:亚矩阵云手机助力多账号轮询与关键词布局系统

——基于硬件虚拟化与AI语义分析的垂直内容渗透方案​一、技术架构:长文运营的三大核心引擎​​多账号轮询系统​​虚拟设备集群​:基于ARM服务器虚拟化技术(如亚矩阵RK3588芯片),单台物理服务器可模拟500独立Tumblr客…

K8s命名空间:资源隔离与管理的核心

K8s 命名空间(Namespace)概念Kubernetes(K8s)中的命名空间是用于在集群内对资源进行逻辑隔离的机制,通过划分不同的命名空间,可以将集群资源(如 Pod、Service、Deployment 等)分配到…

MTK Linux DRM分析(一)- DRM简介

Linux的DRM(Direct Rendering Manager)驱动是内核中管理图形硬件的核心子系统,旨在支持现代显卡的复杂功能(如3D渲染、多图层合成和硬件加速),同时解决传统FB(Framebuffer)架构的局限…

数据挖掘笔记:点到线段的距离计算

1. 写在前面 最近在搞一个"大曲率弯道"场景的数据挖掘,里面有个逻辑是给定自车的定位坐标和车道线的坐标点,根据点到线段的距离,去找到自车所在的车道中心线。 然后发现这个计算其实在很多场景中都是可以用到的,所以就…

C++篇(2)C++入门(下)

一、引用1.1 引用的概念和定义引用不是新定义一个变量,而是给已经存在的变量取别名,编译器不会为引用变量开辟内存空间,它和它引用的变量共用一块内存空间。类型& 引用别名 引用对象int a 10;int& b a; //b是a的引用1.2 引用的…

Windows 如何清理右键菜单?电脑桌面右键菜单里出现一个清理内存 怎么去掉?

RightMenuMgr是一款绿色小巧免费的右键菜单管理工具,简体中文界面,很方便操作,可以帮助用户轻松管理右键菜单,能够重新定义传统的右键,软件体积小,功能强大,安全无毒,且使用免费&…