强化学习是机器学习中的一个领域,它引入了智能体在复杂环境中学习最优策略的概念。代理从其行为中学习,从而根据环境状态获得奖励。强化学习是一个具有挑战性的主题,与机器学习的其他领域有很大不同。
强化学习的显着之处在于,可以使用相同的算法来使代理适应完全不同的、未知的和复杂的条件。
在第 7 部分中,我们介绍了可扩展标准表格方法的值函数近似算法。除此之外,我们特别关注近似值函数是线性的一个非常重要的情况。正如我们所发现的,线性度可以保证收敛到全局最优值或 TD 固定点(在半梯度方法中)。
问题是,有时我们可能想要使用更复杂的近似值函数,而不仅仅是简单的标量积,而不离开线性优化空间。使用复杂近似函数背后的动机是它们无法解释特征之间交互的任何信息。由于真实状态值可能对输入特征具有非常复杂的函数依赖性,因此它们简单的线性形式可能不足以实现良好的近似。
在本文中,我们将了解如何在不离开线性优化空间的情况下有效地将有关状态特征的更多有价值的信息注入到目标中。
<块引用>注意。为了充分理解本文中包含的概念,强烈建议熟悉之前文章中讨论的概念。
块引用>想象一个包含与状态相关的特征的状态向量:
众所周知,这个向量乘以我们想要找到的权重向量 w:
由于线性约束,我们不能简单地包含包含 w 系数之间相互作用的其他项。例如,添加项 ww 使优化问题呈二次方:
对于半梯度方法,我们不知道如何优化此类目标。
如果您还记得上一部分,您就会知道我们可以将有关状态的任何信息包含到特征向量 x(s) 中。因此,如果我们想将特征之间的交互添加到目标中,为什么不简单地派生包含该信息的新特征呢?
让我们回到上一篇文章中的迷宫示例。提醒一下,我们最初有两个代表代理状态的特征,如下图所示:
根据所描述的想法,我们可以添加一个新特征 x(s),例如 x(s) 和 x(s) 之间的乘积。重点是什么?
想象一种情况,代理距离迷宫出口很远,并且被大量陷阱包围,这意味着: