打 multi-fidelity RL 旗号,但是幼稚监督学习 + 迁移学习

RL episode 长度 = 1,先用 PPO 在 low-fidelity env 上学;维护一个 reward 的方差,如果方差足够小,就从 low-fidelity env 迁移到 high-fidelity env。
posted @ 2023-04-15 19:51  MoonOut  阅读(13)  评论(0编辑  收藏  举报