PbRL | QPA：选择 near on-policy query，加速 policy learning 收敛速度

Query-Policy Misalignment：选择的看似 informative 的 query，实际上可能与 RL agent 的兴趣不一致，因此对 policy learning 帮助很小，最终导致 feedback-efficiency 低下。