从代码学习深度强化学习

从代码学习深度强化学习 - DQN PyTorch版

文章目录

前言
DQN 算法核心思想
- Q-Learning 与函数近似
- 经验回放 (Experience Replay)
- 目标网络 (Target Network)
PyTorch 代码实现详解
- 1. 环境与辅助函数
- 2. 经验回放池 (ReplayBuffer)
- 3. Q网络 (Qnet)
- 4. DQN 主类
- 5. 训练循环
- 6. 设置超参数与开始训练
训练结果与分析
总结

前言

欢迎来到深度强化学习的世界！如果你对 Q-learning 有所了解，你可能会知道它使用一个表格（Q-table）来存储每个状态-动作对的价值。然而，当状态空间变得巨大，甚至是连续的时候（比如一个小车在轨道上的位置），Q-table 就变得不切实际。这时，深度Q网络（Deep Q-Network, DQN）就闪亮登场了。

DQN 的核心思想是用一个神经网络来代替 Q-table，实现从状态到（各个动作的）Q值的映射。这使得我们能够处理具有连续或高维状态空间的环境。本文将以经典的 CartPole-v1 环境为例，通过一个完整的 PyTorch 代码实现，带你深入理解 DQN 的工作原理及其关键组成部分：神经网络近似、经验回放和目标网络。

在这里插入图片描述

图 1 CartPole环境示意图

在 CartPole 环境中，智能体的任务是左右移动小车，以保持车上的杆子竖直不倒。这个环境的状态是连续的（车的位置、速度、杆的角度、角速度），而动作是离散的（向左或向右）。这正是DQN大显身手的完美场景。

让我们一起通过代码，揭开DQN的神秘面纱。

完整代码:下载链接

DQN 算法核心思想

在深入代码之前，我们先回顾一下 DQN 的几个关键概念。

Q-Learning 与函数近似

传统的 Q-learning 更新规则如下：
$Q(s,a)\leftarrow Q(s,a)+\alpha\left[r+\gamma\max_{a^{\prime}\in\mathcal{A}}Q(s^{\prime},a^{\prime})-Q(s,a)\right]$

当状态是连续的，我们无法用表格记录所有 Q(s,a)。因此，我们引入一个带参数 w 的神经网络，即 Q-网络 $Q_\omega\left(s,a\right)$ ，来近似真实的 Q-函数。我们的目标是让网络预测的Q值 $Q_\omega\left(s,a\right)$ 逼近“目标Q值” $r+\gamma\max_{a^{\prime}\in\mathcal{A}}Q(s',a')$ 。

为此，我们可以定义一个损失函数，最常见的就是均方误差（MSE Loss）：
$\omega^*=\arg\min_\omega\frac{1}{2N}\sum_{i=1}^N\left[Q_\omega\left(s_i,a_i\right)-\left(r_i+\gamma\max_{a^{\prime}}Q_\omega\left(s_i^{\prime},a^{\prime}\right)\right)\right]^2$

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/news/909981.shtml
繁体地址，请注明出处：http://hk.pswp.cn/news/909981.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！