2023 年 4月 15 日随笔档案 - MoonOut - 博客园

摘要： RL episode 长度 = 1，先用 PPO 在 low-fidelity env 上学；维护一个 reward 的方差，如果方差足够小，就从 low-fidelity env 迁移到 high-fidelity env。阅读全文

posted @ 2023-04-15 19:51 MoonOut 阅读(13) 评论(0) 推荐(0) 编辑

摘要：安利一天能免费使用 10 次且好用的工具 Mathpix。阅读全文

posted @ 2023-04-15 18:59 MoonOut 阅读(59) 评论(0) 推荐(0) 编辑

摘要： motivation：一些预算用于训 low-fidelity model，剩下预算用于 Monte Carlo 模拟，以得到结果。数学证明：近似 + 递推或迭代或归纳法。总结：目前看来，对a56爆大奖在线娱乐的工作意义不大。阅读全文

posted @ 2023-04-15 18:56 MoonOut 阅读(94) 评论(0) 推荐(0) 编辑

月出兮彩云归 ?