RL 基础 | Value Iteration 的收敛性证明

贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射,因此 {V, BV, B?V, ...} 是柯西序列,会收敛到 V=BV 的不动点。
posted @ 2023-10-24 09:40  MoonOut  阅读(409)  评论(0编辑  收藏  举报