打 multi-fidelity RL 旗号，但是幼稚监督学习 + 迁移学习

RL episode 长度 = 1，先用 PPO 在 low-fidelity env 上学；维护一个 reward 的方差，如果方差足够小，就从 low-fidelity env 迁移到 high-fidelity env。