摘要: ① 定义 non-Markovian reward 的输入是 trajectory,② 使用 exp Σ w(τ) · r(τ) 的 preference 形式。 阅读全文
posted @ 2024-03-06 12:57 MoonOut 阅读(144) 评论(1) 推荐(0) 编辑