会员
众包
新闻
博问
闪存
云市场
所有博客
当前博客
a56爆大奖在线娱乐的博客
a56爆大奖在线娱乐的园子
账号设置
简洁模式
...
退出登录
注册
登录
月出兮彩云归 ?
首页
新随笔
联系
订阅
管理
2023年11月27日
offline RL | BCQ:学习 offline dataset 的 π(a|s),直接使用 (s, π(s)) 作为 Q learning 训练数据
摘要: ① 使用 VAE 建模 offline dataset 的 π(a|s),② 添加一个可以学习的 action 扰动 ξ,③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。
阅读全文
posted @ 2023-11-27 21:29 MoonOut
阅读(75)
评论(0)
推荐(0)
编辑
RL 基础 | 讲的很好的 TRPO 博客
摘要: 一篇知乎 TRPO 博客,感觉 idea 讲的很清楚,特来搬运。
阅读全文
posted @ 2023-11-27 15:47 MoonOut
阅读(19)
评论(0)
推荐(0)
编辑
公告