2024 年 2月 7 日随笔档案 - MoonOut - 博客园

摘要： ① unlearn：保守 offline RL 训出的 Q function 太小，被 online 的真 reward 量级压制，导致 policy 初始化破坏，性能下降。② 校准：魔改 CQL 惩罚，令 Q_θ ≥ Q_β。阅读全文

posted @ 2024-02-07 20:14 MoonOut 阅读(29) 评论(0) 推荐(0) 编辑

摘要：在 offline + online buffer 的采样概率，应当与 d^{on}(s,a) / d^{off}(s,a) 成正比（importance sampling）。阅读全文

posted @ 2024-02-07 14:08 MoonOut 阅读(141) 评论(0) 推荐(1) 编辑

月出兮彩云归 ?