会员
众包
新闻
博问
闪存
云市场
所有博客
当前博客
a56爆大奖在线娱乐的博客
a56爆大奖在线娱乐的园子
账号设置
简洁模式
...
退出登录
注册
登录
月出兮彩云归 ?
首页
新随笔
联系
订阅
管理
offline RL · PbRL | OPPO:PbRL 场景的 offline hindsight transformer
将 offline HIM 应用到 PbRL,① 用离线轨迹训练 a=π(s,z) ,② 训练最优 hindsight z* 靠近 z+ 远离 z-。
将 offline HIM 应用到 PbRL,① 用离线轨迹训练 a=π(s,z) ,② 训练最优 hindsight z* 靠近 z+ 远离 z-。
posted @
2024-02-27 21:38
MoonOut
阅读(
23
) 评论(
0
)
编辑
收藏
举报
指间灵动,快码加编
刷新页面
返回顶部
公告