RL 基础 | Value Iteration 的收敛性证明

贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射，因此 {V, BV, B?V, ...} 是柯西序列，会收敛到 V=BV 的不动点。