RL 基础 | Policy Gradient 的推导

如果想最大化期望下的 R(τ),那么策略梯度 = R(τ) · Σ ▽log π(a|s) ,即 discounted return × Σ 梯度 log [选取该 action 的概率] 。
posted @ 2024-03-21 16:46  MoonOut  阅读(113)  评论(0编辑  收藏  举报