带你从不同角度了解强化学习算法的分类读 - 慢性胆囊炎饮食

TUhjnbcbe - 2024/12/31 9:07:00

全文共字，预计学习时长5分钟

图源：unsplash

本文将介绍强化学习算法的分类法，从多种不同角度学习几种分类法。话不多说，大家深呼吸，一起来学习RL算法的分类吧！

无模型（Model-Free）VS基于模型（Model-Based）

无模型VS模型分类法[图源：作者，OpenAISpinningUp再创作]

RL算法的一种分类方法是询问代理是否能访问环境模型。换言之，询问环境会否响应代理的行为。基于这个观点有两个RL算法的分支：无模型和基于模型。

·模型RL算法根据环境的学习模型来选择最佳策略。

·无模型RL算法通过代理反复测试选择最佳策略。

两种算法都各有优缺点，如下表所示：

基于价值VS基于政策

RL算法的另一种分类方法是考虑算法优化了价值函数还是策略。在深入了解之前，我们先了解策略和价值功能。

策略

策略π是从状态s到动作a的映射，其中π（a

s）是在状态s时采取动作a的概率。策略可以是确定的，也可以是随机的。

假设我们在玩剪刀石头布这个非常简单的游戏，两个人通过同时执行三个动作（石头/剪刀/布）中的一个来比输赢。规则很简单：

·剪刀克布

·石头克剪刀

·布克石头

把策略看作是迭代的剪刀石头布

·确定性策略容易被利用-如果我意识到你出“石头”较多，那么我可以利用这一点，获得更大赢面。

·统一的随机策略（uniformrandompolicy）最佳—如果你的选择完全随机，那我就不知道该采取什么行动才能取胜。

价值函数

价值函数是根据对未来回报（返回值）的预测来衡量状态良好程度的函数。返回值（Gt）基本等于“折扣”回报的总和（自t时起）。

γ∈[0,1]是折扣因数。折扣因数旨在抵扣未来的回报，有以下几个原因：

·方便数学计算

·打破状态变化图中的无限循环

·未来回报的高度不确定性（比如股价变化）

·未来回报不能立时受益（比如人们更愿意当下享乐而非十年后）

了解了返回值的概念后，接下来定义价值函数的数学形式吧！

价值函数的数学形式有二：

·状态-动作价值函数（Q值）是t时状态动作组合下的期望返回值：

Q值和价值函数之间的区别是动作优势函数（通常称为A值）：

现在知道了什么是价值函数和动作-状态价值函数。接下来学习有关RL算法另一个分支的更多信息，该分支主要