off-policy RL | Advantage-Weighted Regression (AWR):组合先前策略得到新 base policy

仅仅留下了一些印象,并没有看懂具体算法…… 如果需要重读这篇论文,会 refine 这篇阅读笔记的。
posted @ 2023-11-13 20:40  MoonOut  阅读(99)  评论(0编辑  收藏  举报