摘要: ① 使用 VAE 建模 offline dataset 的 π(a|s),② 添加一个可以学习的 action 扰动 ξ,③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。 阅读全文
posted @ 2023-11-27 21:29 MoonOut 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 一篇知乎 TRPO 博客,感觉 idea 讲的很清楚,特来搬运。 阅读全文
posted @ 2023-11-27 15:47 MoonOut 阅读(19) 评论(0) 推荐(0) 编辑