offline RL | HIM:基于 hindsight 的 RL 是一类大 idea

将 offline 训练轨迹中,当前时刻之后发生的事 作为 hindsight,从而训练出 想要达到当前 hindsight 的 action。
posted @ 2024-02-27 21:08  MoonOut  阅读(58)  评论(0编辑  收藏  举报