RL 基础 | Policy Gradient 的推导

如果想最大化期望下的 R(τ)，那么策略梯度 = R(τ) · Σ ▽log π(a|s) ，即 discounted return × Σ 梯度 log [选取该 action 的概率] 。