英语轻松读发新版了,欢迎下载、更新

介绍 n 步时间差分方法

2024-12-30 06:20:35 英文原文

作者:Oliver S

Richard S. Sutton 使用自定义 Python 实现剖析“强化学习”,第五集

Oliver S

Towards Data Science

在上一篇文章中,我们通过探索时间差分(TD)学习来结束了基本强化学习(RL)技术的介绍系列。TD 方法融合了动态规划 (DP) 和蒙特卡洛 (MC) 方法的优势,利用它们的最佳特性形成了一些最重要的 RL 算法,例如 Q 学习。

在此基础上,这篇文章深入探讨了n步TD学习,Sutton 的书第 7 章中介绍的一种通用方法 [1]。该方法弥补了经典 TD 和 MC 技术之间的差距。与 TD 一样,n 步方法使用引导(利用先前的估计),但它们也包含了下一个n奖励,提供短期和长期学习的独特结合。在以后的文章中,我们将进一步概括这个概念资格痕迹

我们将遵循结构化方法,从预测问题在搬到之前控制。一路走来,我们将:

  • 介绍n步Sarsa,
  • 将其扩展为离策略学习,
  • 探索n步树备份算法, 和
  • 提出统一的观点n 步 Q(Ï)

与往常一样,您可以在以下位置找到所有随附的代码GitHub。让我们开始吧!

关于《介绍 n 步时间差分方法》的评论


暂无评论

发表评论

摘要

这篇文章通过探索理查德·S·萨顿(Richard S. Sutton)书中介绍的 n 步时间差异(TD)学习来继续强化学习(RL)的介绍性系列。基于之前对结合动态规划和蒙特卡罗技术的 TD 方法的讨论,本集介绍了一种多功能方法——n 步 TD 学习——它集成了短期和长期奖励,以弥合经典 TD 和蒙特卡罗方法之间的差距。这篇文章涵盖了 n 步 Sarsa、其对离策略学习的扩展、n 步树备份算法,并以使用 n 步 Q(σ) 的统一视角作为结论。这些概念的代码实现可在 GitHub 上找到。