2023 年 11月 27 日随笔档案 - MoonOut - 博客园

摘要： ① 使用 VAE 建模 offline dataset 的 π(a|s)，② 添加一个可以学习的 action 扰动 ξ，③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。阅读全文

posted @ 2023-11-27 21:29 MoonOut 阅读(75) 评论(0) 推荐(0) 编辑

摘要：一篇知乎 TRPO 博客，感觉 idea 讲的很清楚，特来搬运。阅读全文

posted @ 2023-11-27 15:47 MoonOut 阅读(19) 评论(0) 推荐(0) 编辑

月出兮彩云归 ?