offline RL · PbRL | OPPO：PbRL 场景的 offline hindsight transformer

将 offline HIM 应用到 PbRL，① 用离线轨迹训练 a=π(s,z) ，② 训练最优 hindsight z* 靠近 z+ 远离 z-。