offline RL · PbRL | Preference Transformer：反正感觉 transformer 很强大

① 定义 non-Markovian reward 的输入是 trajectory，② 使用 exp Σ w(τ) · r(τ) 的 preference 形式。