offline 2 online | AWAC:基于 AWR 的 policy update + online 补充数据集

采用 policy iteration 框架,① policy evaluation 普通更新 Q function,② policy update 使用 AWR 式更新,③ 前两步的采样数据集都是 offline + online。
posted @ 2024-02-05 21:50  MoonOut  阅读(108)  评论(0编辑  收藏  举报