offline RL | 读读 Decision Transformer

① sequence: {s, a, R, s, ...};② 在 s 的 decode 结果上加 MLP 预测 action;③ 给定 return-to-go 作为某种 hindsight。
posted @ 2024-02-27 20:14  MoonOut  阅读(79)  评论(0编辑  收藏  举报