摘要: 如果没有质量更好的第二季,宁愿它就这样停在第一季;已经很好了,已经很完美了。 阅读全文
posted @ 2023-12-17 16:15 MoonOut 阅读(15) 评论(1) 推荐(0) 编辑
摘要: critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error,① 对所转移去的 (s',a') 的 uncertainty 进行惩罚,② 对 (s, a_ood) 的 uncertainty 进行惩罚。 阅读全文
posted @ 2023-12-17 15:37 MoonOut 阅读(95) 评论(0) 推荐(0) 编辑
摘要: Query-Policy Misalignment:选择的看似 informative 的 query,实际上可能与 RL agent 的兴趣不一致,因此对 policy learning 帮助很小,最终导致 feedback-efficiency 低下。 阅读全文
posted @ 2023-12-17 15:28 MoonOut 阅读(36) 评论(1) 推荐(0) 编辑