offline RL | ABM：从 offline dataset 的好 transition 提取 prior policy

对于 policy improvement，maximize Q(s, π(s)) ，同时约束 π 与一个 prior policy 的 KL 散度，prior policy 用 advantage 非负的 offline 状态转移计算。