2023 年 11月 2 日随笔档案 - MoonOut - 博客园

摘要： 1. Policy Evaluation 会收敛，因为贝尔曼算子是压缩映射；2. Policy Improvement 有策略性能改进的保证。阅读全文

posted @ 2023-11-02 10:44 MoonOut 阅读(69) 评论(0) 推荐(0) 编辑

月出兮彩云归 ?