在强化学习的世界里,智能体与环境的交互核心是 “动作选择”。当面对离散动作空间(如围棋的落子点、游戏的按键操作)时,智能体可以直接枚举或概率选择有限的动作;但在连续动作空间中(如机器人关节角度、无人机加速度、温度控制的数值),动作是无限的,智能体如何 “输出” 动作就成了关键问题。
今天我们就聚焦连续空间强化学习中策略的两种核心输出形式:随机策略(输出概率分布参数) 与确定性策略(输出具体动作值),看看它们如何平衡 “探索未知” 与 “利用已知”,以及各自在实际场景中的应用逻辑。
一、随机策略:用概率分布拥抱不确定性
随机策略的核心哲学是:不直接给出 “最优动作”,而是描述 “动作的可能性”。通过概率分布的随机性,智能体既能大概率选择已知较好的动作,又能小概率尝试新动作,自然实现探索与利用的平衡。
1. 为什么是概率分布?
连续空间的动作是无限的(比如 “室内温度调节” 可以是 18.5℃、23.3℃等任意值)。如果智能体每次都输出一个固定动作,很容易陷入 “局部最优”—— 比如一直用 22℃,却不知道 21.5℃能更节能。
概率分布则像一个 “灵活的指南针”:
-
大概率指向已知较好的动作(利用);
-
小概率覆盖其他可能(探索)。
随着训练深入,分布会逐渐向最优动作收缩,实现 “从探索到收敛” 的过程。
2. 概率分布的参数:以高斯分布为例
连续空间中最常用的是高斯分布(正态分布),因为它能很好地描述连续数值的不确定性。策略网络的输出是高斯分布的两个核心参数:
-
均值(μ):分布的中心,代表 “当前认为最可能最优的动作”(比如机械臂关节的目标角度 30°);
-
标准差(σ):分布的离散程度,代表 “探索范围”(σ 越大,动作采样越分散,探索性越强)。
举个例子:
在机械臂抓取任务中,策略网络输出 μ=30°(关节角度),σ=5°。此时智能体会从这个分布中采样动作,可能是 28°、32°、甚至 25°(但大概率集中在 30° 附近)。如果某次 28° 的动作成功抓取,后续训练会让 μ 向 28° 靠近,同时 σ 可能减小(减少无效探索)。
3. 实际场景:无人机姿态控制
无人机的 “俯仰角” 控制是典型的连续动作任务(范围 - 10°~10°)。采用随机策略时:
-
策略网络输出高斯分布参数 μ=2°,σ=1°;
-
实际动作从该分布中采样,可能是 1.8°、2.1°、甚至 2.5°;
-
若 2.1° 时无人机稳定性更好,奖励更高,网络会调整 μ 逐渐接近 2.1°,σ 缩小到 0.5°(聚焦更优动作)。
二、确定性策略:直接输出 “最优解”
确定性策略的逻辑更直接:在当前状态下,直接输出一个固定的动作值,即 “我认为这个动作就是最优的”。它不依赖随机性,而是通过外部机制实现探索。
1. 为什么需要确定性输出?
-
效率更高:无需采样和分布计算,直接输出动作,适合高维连续空间(比如 100 个关节的机器人);
-
场景适配:某些任务的最优动作是 “确定的”(比如稳定行走的机器人,每个时刻的关节角度有明确最优值)。
2. 如何解决探索问题?
确定性策略本身没有随机性,若直接用输出动作,可能 “一条道走到黑”(比如一直用 22℃,永远发现不了 21.5℃的优势)。因此需要人工添加探索噪声:
-
比如在输出动作上叠加小幅度的随机噪声(如高斯噪声);
-
训练初期噪声大(鼓励探索),后期噪声衰减(聚焦最优动作)。
3. 实际场景:自动驾驶的油门控制
自动驾驶中,“油门开度” 是连续动作(0~100%)。采用确定性策略时:
-
策略网络直接输出动作值 30%(当前认为最优的开度);
-
实际执行时叠加 ±5% 的噪声,动作可能是 27%、32% 等;
-
若 32% 时加速更平稳(奖励更高),网络会调整参数,让输出逐渐向 32% 靠近;
-
训练后期噪声减小到 ±1%,最终稳定在最优值附近。
三、两种策略的核心区别与适用场景
维度 | 随机策略(输出分布参数) | 确定性策略(输出具体动作值) |
---|---|---|
输出形式 | 概率分布参数(如高斯分布的 μ 和 σ) | 具体动作值(如 30°、2.5m/s²) |
随机性来源 | 内置(从分布中采样) | 外部(人工添加噪声) |
探索控制 | 通过标准差 σ 调整(σ 越大探索越强) | 通过噪声幅度调整(初期大、后期小) |
计算效率 | 较低(需采样和分布参数优化) | 较高(直接输出动作) |
典型算法 | PPO、SAC、REINFORCE | DDPG、TD3 |
适用场景 | 复杂环境(如机械臂精细操作、游戏 AI) | 高维动作空间(如多关节机器人)、最优动作稳定的场景 |
四、总结:没有 “最好”,只有 “最合适”
连续空间强化学习中,随机策略和确定性策略的核心目标都是找到 “最大化累积奖励的动作”,只是通过不同的输出形式平衡探索与利用:
-
随机策略用概率分布 “自然探索”,适合复杂、未知环境;
-
确定性策略用固定动作 “高效收敛”,依赖外部噪声探索,适合高维或最优动作明确的场景。
在实际应用中,选择哪种策略往往取决于任务特性(如动作维度、环境复杂度)。例如,机械臂装配任务常用 SAC(随机策略)处理精细操作,而多足机器人行走可能用 DDPG(确定性策略)提升效率。
随着强化学习的发展,两种策略的边界也在模糊(如 SAC 结合了随机策略的探索性和确定性策略的稳定性)。理解它们的底层逻辑,才能更好地选择和改进算法,让智能体在连续世界中更 “聪明” 地行动。
(注:文档为人类与 AI 共创)