PbRL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark

发现对于很多任务,(只要给出专家轨迹),将 reward 设为 0 或随机数,也能学出很好 policy,证明这些任务不适合用来评测 reward learning 的性能好坏。
posted @ 2023-11-13 18:11  MoonOut  阅读(241)  评论(0编辑  收藏  举报