作者:Oliver S
在上一篇文章中,我们通过探索时间差分(TD)学习来结束了基本强化学习(RL)技术的介绍系列。TD 方法融合了动态规划 (DP) 和蒙特卡洛 (MC) 方法的优势,利用它们的最佳特性形成了一些最重要的 RL 算法,例如 Q 学习。
在此基础上,这篇文章深入探讨了n步TD学习,Sutton 的书第 7 章中介绍的一种通用方法 [1]。该方法弥补了经典 TD 和 MC 技术之间的差距。与 TD 一样,n 步方法使用引导(利用先前的估计),但它们也包含了下一个n奖励,提供短期和长期学习的独特结合。
在以后的文章中,我们将进一步概括这个概念资格痕迹。
我们将遵循结构化方法,从预测问题在搬到之前控制。一路走来,我们将:
与往常一样,您可以在以下位置找到所有随附的代码GitHub。让我们开始吧!