2024 年 3月 6 日随笔档案 - MoonOut - 博客园

摘要： ① 定义 non-Markovian reward 的输入是 trajectory，② 使用 exp Σ w(τ) · r(τ) 的 preference 形式。阅读全文

posted @ 2024-03-06 12:57 MoonOut 阅读(144) 评论(1) 推荐(0) 编辑

月出兮彩云归 ?