2024 年 1月 21 日随笔档案 - MoonOut - 博客园

摘要：对于 policy improvement，maximize Q(s, π(s)) ，同时约束 π 与一个 prior policy 的 KL 散度，prior policy 用 advantage 非负的 offline 状态转移计算。阅读全文

posted @ 2024-01-21 11:26 MoonOut 阅读(70) 评论(0) 推荐(0) 编辑

摘要： OpenReview 检索关键词：ICLR 2024、reinforcement learning、preference、human feedback。阅读全文

posted @ 2024-01-21 11:17 MoonOut 阅读(173) 评论(0) 推荐(0) 编辑

月出兮彩云归 ?