offline RL | ABM:从 offline dataset 的好 transition 提取 prior policy

对于 policy improvement,maximize Q(s, π(s)) ,同时约束 π 与一个 prior policy 的 KL 散度,prior policy 用 advantage 非负的 offline 状态转移计算。
posted @ 2024-01-21 11:26  MoonOut  阅读(70)  评论(0编辑  收藏  举报