PbRL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark

发现对于很多任务，（只要给出专家轨迹），将 reward 设为 0 或随机数，也能学出很好 policy，证明这些任务不适合用来评测 reward learning 的性能好坏。