RL 的探索策略 | Exploration for RL

motivation:鼓励探索。主要方法:给 agent 不熟悉的 state 一个 intrinsic reward。关键问题:如何判断 agent 对某个 state 的熟悉程度。
posted @ 2023-04-06 21:58  MoonOut  阅读(287)  评论(0编辑  收藏  举报