offline RL · PbRL | OPPO:PbRL 场景的 offline hindsight transformer

将 offline HIM 应用到 PbRL,① 用离线轨迹训练 a=π(s,z) ,② 训练最优 hindsight z* 靠近 z+ 远离 z-。
posted @ 2024-02-27 21:38  MoonOut  阅读(23)  评论(0编辑  收藏  举报