offline RL · PbRL | Preference Transformer:反正感觉 transformer 很强大

① 定义 non-Markovian reward 的输入是 trajectory,② 使用 exp Σ w(τ) · r(τ) 的 preference 形式。
posted @ 2024-03-06 12:57  MoonOut  阅读(90)  评论(1编辑  收藏  举报