摘要: 仅仅留下了一些印象,并没有看懂具体算法…… 如果需要重读这篇论文,会 refine 这篇阅读笔记的。 阅读全文
posted @ 2023-11-13 20:40 MoonOut 阅读(99) 评论(0) 推荐(0) 编辑
摘要: 发现对于很多任务,(只要给出专家轨迹),将 reward 设为 0 或随机数,也能学出很好 policy,证明这些任务不适合用来评测 reward learning 的性能好坏。 阅读全文
posted @ 2023-11-13 18:11 MoonOut 阅读(239) 评论(0) 推荐(0) 编辑