PbRL | QPA:选择 near on-policy query,加速 policy learning 收敛速度

Query-Policy Misalignment:选择的看似 informative 的 query,实际上可能与 RL agent 的兴趣不一致,因此对 policy learning 帮助很小,最终导致 feedback-efficiency 低下。
posted @ 2023-12-17 15:28  MoonOut  阅读(36)  评论(1编辑  收藏  举报