off-policy RL | Advantage-Weighted Regression (AWR)：组合先前策略得到新 base policy

仅仅留下了一些印象，并没有看懂具体算法…… 如果需要重读这篇论文，会 refine 这篇阅读笔记的。

posted @ 2023-11-13 20:40 MoonOut 阅读(99) 评论(0) 编辑收藏举报

指间灵动，快码加编

刷新页面返回顶部