MoonOut - 博客园_a56爆大奖在线娱乐

摘要： Act as a reinforcement learning expert. Please do a review for representation learning in RL. Should focus on how to map a trajectory to a latent. 阅读全文

posted @ 2024-02-29 16:10 MoonOut 阅读(36) 评论(1) 推荐(0) 编辑

2024年2月27日

offline RL · PbRL | OPPO：PbRL 场景的 offline hindsight transformer

摘要：将 offline HIM 应用到 PbRL，① 用离线轨迹训练 a=π(s,z) ，② 训练最优 hindsight z* 靠近 z+ 远离 z-。阅读全文

posted @ 2024-02-27 21:38 MoonOut 阅读(23) 评论(0) 推荐(0) 编辑

offline RL | HIM：基于 hindsight 的 RL 是一类大 idea

摘要：将 offline 训练轨迹中，当前时刻之后发生的事作为 hindsight，从而训练出想要达到当前 hindsight 的 action。阅读全文

posted @ 2024-02-27 21:08 MoonOut 阅读(57) 评论(0) 推荐(0) 编辑

offline RL | 读读 Decision Transformer

摘要： ① sequence: {s, a, R, s, ...}；② 在 s 的 decode 结果上加 MLP 预测 action；③ 给定 return-to-go 作为某种 hindsight。阅读全文

posted @ 2024-02-27 20:14 MoonOut 阅读(144) 评论(0) 推荐(2) 编辑

2024年2月20日

python · matplotlib | seaborn 画图与调整图例位置

摘要：画图代码的存档。阅读全文

posted @ 2024-02-20 11:29 MoonOut 阅读(212) 评论(0) 推荐(0) 编辑

2024年2月17日

PID 控制 |（搬运）教程与 python 代码

摘要： Proportional-Integral-Derivative（PID），比例-积分-微分控制。阅读全文

posted @ 2024-02-17 10:55 MoonOut 阅读(131) 评论(0) 推荐(0) 编辑

2024年2月7日

offline 2 online | Cal-QL：校准保守 offline 训出的 Q value，让它与真实 reward 尺度相当

摘要： ① unlearn：保守 offline RL 训出的 Q function 太小，被 online 的真 reward 量级压制，导致 policy 初始化破坏，性能下降。② 校准：魔改 CQL 惩罚，令 Q_θ ≥ Q_β。阅读全文

posted @ 2024-02-07 20:14 MoonOut 阅读(28) 评论(0) 推荐(0) 编辑

offline 2 online | 重要性采样，把 offline + online 数据化为 on-policy samples

摘要：在 offline + online buffer 的采样概率，应当与 d^{on}(s,a) / d^{off}(s,a) 成正比（importance sampling）。阅读全文

posted @ 2024-02-07 14:08 MoonOut 阅读(141) 评论(0) 推荐(1) 编辑

2024年2月6日

凸优化 | 期末复习笔记存档

摘要：出分后发布笔记…… 阅读全文

posted @ 2024-02-06 11:01 MoonOut 阅读(116) 评论(0) 推荐(0) 编辑

概率图 | 两次小测的笔记存档

摘要：出分后发布笔记…… 阅读全文

posted @ 2024-02-06 10:47 MoonOut 阅读(8) 评论(0) 推荐(0) 编辑

复杂系统 | 20240116 · 考试题目回忆版

摘要：出分后发布笔记…… 阅读全文

posted @ 2024-02-06 10:37 MoonOut 阅读(16) 评论(0) 推荐(0) 编辑

复杂系统 | 考前知识点总结（不完全）

摘要：出分后发布笔记…… 阅读全文

posted @ 2024-02-06 10:37 MoonOut 阅读(17) 评论(0) 推荐(1) 编辑

2024年2月5日

碎碎念 | 20230126 · a56爆大奖在线娱乐已被“贪嗔痴”的“痴”折磨将近二十年

摘要：对于美丽的人和事物，美丽的感念与此刻，便只希望它能永远存在下去；如果可能的话，请永远停留在这里吧。阅读全文

posted @ 2024-02-05 22:24 MoonOut 阅读(2) 评论(1) 推荐(0) 编辑

offline 2 online | AWAC：基于 AWR 的 policy update + online 补充数据集

摘要：采用 policy iteration 框架，① policy evaluation 普通更新 Q function，② policy update 使用 AWR 式更新，③ 前两步的采样数据集都是 offline + online。阅读全文

posted @ 2024-02-05 21:50 MoonOut 阅读(108) 评论(0) 推荐(1) 编辑

2024年1月21日

offline RL | ABM：从 offline dataset 的好 transition 提取 prior policy

摘要：对于 policy improvement，maximize Q(s, π(s)) ，同时约束 π 与一个 prior policy 的 KL 散度，prior policy 用 advantage 非负的 offline 状态转移计算。阅读全文

posted @ 2024-01-21 11:26 MoonOut 阅读(70) 评论(0) 推荐(0) 编辑

PbRL | 速通 ICLR 2024 RLHF · PbRL

摘要： OpenReview 检索关键词：ICLR 2024、reinforcement learning、preference、human feedback。阅读全文

posted @ 2024-01-21 11:17 MoonOut 阅读(172) 评论(0) 推荐(0) 编辑

2024年1月13日

“嵌套分区法，是a56爆大奖在线娱乐良策；将海洋分成块，每块都探测。”

摘要：为了帮助你更好地理解 Nested Partition 算法，a56爆大奖在线娱乐为你生成了一首诗，用比喻的方式描述了这种算法的过程。希望这对你有所帮助。? 阅读全文

posted @ 2024-01-13 11:06 MoonOut 阅读(50) 评论(1) 推荐(0) 编辑

2023年12月17日

杂谈 | 《黑门》很好看，想安利给全世界

摘要：如果没有质量更好的第二季，宁愿它就这样停在第一季；已经很好了，已经很完美了。阅读全文

posted @ 2023-12-17 16:15 MoonOut 阅读(15) 评论(1) 推荐(0) 编辑

offline RL | Pessimistic Bootstrapping (PBRL)：在 Q 更新中惩罚 uncertainty，拉低 OOD Q value

摘要： critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error，① 对所转移去的 (s',a') 的 uncertainty 进行惩罚，② 对 (s, a_ood) 的 uncertainty 进行惩罚。阅读全文

posted @ 2023-12-17 15:37 MoonOut 阅读(95) 评论(0) 推荐(0) 编辑

PbRL | QPA：选择 near on-policy query，加速 policy learning 收敛速度

摘要： Query-Policy Misalignment：选择的看似 informative 的 query，实际上可能与 RL agent 的兴趣不一致，因此对 policy learning 帮助很小，最终导致 feedback-efficiency 低下。阅读全文

posted @ 2023-12-17 15:28 MoonOut 阅读(36) 评论(1) 推荐(0) 编辑

2023年11月30日

PbRL | B-Pref：生成多样非理性 preference，建立 PBRL benchmark

摘要：贡献：提出a56爆大奖在线娱乐生成非理性（模拟人类）preference 的方法，使用多样化的 preference，评测 PBRL 各环节算法设计（select informative queries、feedback schedule）的效果。阅读全文

posted @ 2023-11-30 21:21 MoonOut 阅读(48) 评论(0) 推荐(0) 编辑

2023年11月28日

概率图模型 · 蒙特卡洛采样 · MCMC | 非常好的教学视频

摘要：非常感谢！去写作业了?? 阅读全文

posted @ 2023-11-28 15:34 MoonOut 阅读(10) 评论(0) 推荐(0) 编辑

2023年11月27日

offline RL | BCQ：学习 offline dataset 的 π(a|s)，直接使用 (s, π(s)) 作为 Q learning 训练数据

摘要： ① 使用 VAE 建模 offline dataset 的 π(a|s)，② 添加一个可以学习的 action 扰动 ξ，③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。阅读全文

posted @ 2023-11-27 21:29 MoonOut 阅读(75) 评论(0) 推荐(0) 编辑

RL 基础 | 讲的很好的 TRPO 博客

摘要：一篇知乎 TRPO 博客，感觉 idea 讲的很清楚，特来搬运。阅读全文

posted @ 2023-11-27 15:47 MoonOut 阅读(19) 评论(0) 推荐(0) 编辑

2023年11月25日

offline RL | IQL：通过 sarsa 式 Q 更新避免 unseen actions

摘要： ① 通过 (s,a,r,s',a') 更新 Q function，② 通过 Q 和 V 交替迭代，避免过拟合 s'~p(s'|a) 的随机好 s'，误以为 a 是好 action，③ 通过 AWR 从 advantage 提取 policy。阅读全文

posted @ 2023-11-25 20:12 MoonOut 阅读(214) 评论(0) 推荐(0) 编辑

2023年11月19日

offline RL | TD3+BC：在最大化 Q advantage 时添加 BC loss 的极简算法

摘要： ① 在 actor 最大化 Q advantage 时，纳入一个 behavior cloning loss； ② observation 归一化；③ 让 Q advantage 跟 behavior cloning 的 loss 可比。阅读全文

posted @ 2023-11-19 17:02 MoonOut 阅读(328) 评论(0) 推荐(0) 编辑

2023年11月16日

概率图 · 概率论基础 | 讲的非常好的 KL 散度博客

摘要：感觉讲的非常好，谢谢善良的博主 ??? 阅读全文

posted @ 2023-11-16 16:36 MoonOut 阅读(15) 评论(0) 推荐(0) 编辑

2023年11月13日

off-policy RL | Advantage-Weighted Regression (AWR)：组合先前策略得到新 base policy

摘要：仅仅留下了一些印象，并没有看懂具体算法…… 如果需要重读这篇论文，会 refine 这篇阅读笔记的。阅读全文

posted @ 2023-11-13 20:40 MoonOut 阅读(97) 评论(0) 推荐(0) 编辑

月出兮彩云归 ?

公告