摘要: RL episode 长度 = 1,先用 PPO 在 low-fidelity env 上学;维护一个 reward 的方差,如果方差足够小,就从 low-fidelity env 迁移到 high-fidelity env。 阅读全文
posted @ 2023-04-15 19:51 MoonOut 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 安利一天能免费使用 10 次且好用的工具 Mathpix。 阅读全文
posted @ 2023-04-15 18:59 MoonOut 阅读(59) 评论(0) 推荐(0) 编辑
摘要: motivation:一些预算用于训 low-fidelity model,剩下预算用于 Monte Carlo 模拟,以得到结果。数学证明:近似 + 递推或迭代或归纳法。总结:目前看来,对a56爆大奖在线娱乐的工作意义不大。 阅读全文
posted @ 2023-04-15 18:56 MoonOut 阅读(94) 评论(0) 推荐(0) 编辑