投资中国
您的位置:首页 >教育 > 活动 > 正文

【RL】A Minimalist Approach to Offline Reinforcement Learning

来源:哔哩哔哩 时间:2023-08-26 04:50:27

标题、录用情况


(资料图片)

A Minimalist Approach to Offline Reinforcement Learning;Nips 2021

作者、单位

Scott Fujimoto1,2 Shixiang Shane Gu2

1Mila, McGill University 2Google Research, Brain Team

导读

针对Offline RL中的OOD(Out of Distribution)问题,现有的方法会导致额外的复杂的成本。该文章提出了一个使RL算法在Offline场景可以work的最简化方法,即添加行为克隆项并对State数据进行归一化,达到了和现有SOTA相当或更甚的效果。

研究背景及动机

在RL中,与环境的交互往往成本很高,有危险性或者很具有挑战性。Offline RL可以通过事先收集的专家数据解决这一问题,但其本身存在OOD的问题,针对OOD,现有的解决方案太复杂,或者难以复现,难以迁移到其它算法上。

意义

以极小的代价、最简单的改动缓解了OOD的问题。

方法

在TD3的基础上增加了(1)行为克隆项约束以及(2)对State进行归一化。

其中Si定义如下,μ为均值,σ为方差,e为归一化约束,取10exp(−3)。

λ为参数,RL(在最大化 Q)和模仿(在最小化 BC 项中)之间的平衡非常容易受到 Q 的规模的影响,因此需要平衡Q与BC项(即后半部分)的数量级。通常来说action的范围为[-1, 1],因此BC项最大值为4,所以在Q前要通过λ加权。

需要注意的是,在实践中,此处分母上的均值是针对mini-batches的范围,而不是整个数据集。α 为参数,取值为,则Q项的范围为[-,  ]。

实验结果

本文在D4RL上进行了实验,对比算法包括两个SOTA:CQL,Fisher-BC以及BRAC,AWAC.

结果显示整体表现与Fisher-BC相当,优于CQL,BRAC,AWAC.

运行速度完胜

消融实验如下,显然BC项起到了至关重要的作用,归一化影响较小。

α取2、3时效果明显较好,文中取值为,

值得一提的是

本文的方法极其简单,只需要更改几行代码;

Rebuttal场面很有意思(B站不支持站外链接直接跳转):

/forum?id=Q32U7dzWXpc

/p/450152373

……

标签:

相关阅读