标题、录用情况
(资料图片)
A Minimalist Approach to Offline Reinforcement Learning;Nips 2021
作者、单位
Scott Fujimoto1,2 Shixiang Shane Gu2
1Mila, McGill University 2Google Research, Brain Team
导读
针对Offline RL中的OOD(Out of Distribution)问题,现有的方法会导致额外的复杂的成本。该文章提出了一个使RL算法在Offline场景可以work的最简化方法,即添加行为克隆项并对State数据进行归一化,达到了和现有SOTA相当或更甚的效果。
研究背景及动机
在RL中,与环境的交互往往成本很高,有危险性或者很具有挑战性。Offline RL可以通过事先收集的专家数据解决这一问题,但其本身存在OOD的问题,针对OOD,现有的解决方案太复杂,或者难以复现,难以迁移到其它算法上。
意义
以极小的代价、最简单的改动缓解了OOD的问题。
方法
在TD3的基础上增加了(1)行为克隆项约束以及(2)对State进行归一化。
其中Si定义如下,μ为均值,σ为方差,e为归一化约束,取10exp(−3)。
λ为参数,RL(在最大化 Q)和模仿(在最小化 BC 项中)之间的平衡非常容易受到 Q 的规模的影响,因此需要平衡Q与BC项(即后半部分)的数量级。通常来说action的范围为[-1, 1],因此BC项最大值为4,所以在Q前要通过λ加权。
需要注意的是,在实践中,此处分母上的均值是针对mini-batches的范围,而不是整个数据集。α 为参数,取值为,则Q项的范围为[-, ]。
实验结果
本文在D4RL上进行了实验,对比算法包括两个SOTA:CQL,Fisher-BC以及BRAC,AWAC.
结果显示整体表现与Fisher-BC相当,优于CQL,BRAC,AWAC.
运行速度完胜
消融实验如下,显然BC项起到了至关重要的作用,归一化影响较小。
α取2、3时效果明显较好,文中取值为,
值得一提的是
本文的方法极其简单,只需要更改几行代码;
Rebuttal场面很有意思(B站不支持站外链接直接跳转):
/forum?id=Q32U7dzWXpc
/p/450152373
……
标签: