offline 2 online | 重要性采样,把 offline + online 数据化为 on-policy samples

在 offline + online buffer 的采样概率,应当与 d^{on}(s,a) / d^{off}(s,a) 成正比(importance sampling)。
posted @ 2024-02-07 14:08  MoonOut  阅读(73)  评论(0编辑  收藏  举报