摘要: 因为自己实在是太好忘了? a56爆大奖在线娱乐在博客存档方便查找 阅读全文
posted @ 2024-01-18 19:47 MoonOut 阅读(16) 评论(0) 推荐(0) 编辑
摘要: 零零散散的经验,存下来方便查阅。 阅读全文
posted @ 2023-06-16 10:10 MoonOut 阅读(151) 评论(0) 推荐(0) 编辑
摘要: ELBO 用于最小化 q(z|s) 和 p(z|s) 的 KL 散度,变成最大化 p(x|z) 的 log likelihood + 最小化 q(z|s) 和先验 p(z) 的 KL 散度。 阅读全文
posted @ 2024-06-23 18:10 MoonOut 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 整理并发布本科四年的课程资料。 阅读全文
posted @ 2024-06-23 16:50 MoonOut 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 使用 df.loc[len(df)] = {'key1': 123, 'key2': 234} 阅读全文
posted @ 2024-06-23 15:39 MoonOut 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 电脑端:在同一个局域网下 + 共享文件夹;手机端:文件 app 连接服务器 + 照片 保存到文件。 阅读全文
posted @ 2024-06-12 11:19 MoonOut 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 简单看了一下三大会近期的 Multi-objective RL 工作。 阅读全文
posted @ 2024-05-28 22:31 MoonOut 阅读(54) 评论(0) 推荐(0) 编辑
摘要: 【ps -ef | grep '[w]andb'】【pkill -f wandb】 阅读全文
posted @ 2024-04-22 11:31 MoonOut 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 在某些契机下,制作了构想很久的个人 icon。 阅读全文
posted @ 2024-03-21 16:55 MoonOut 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 如果想最大化期望下的 R(τ),那么策略梯度 = R(τ) · Σ ▽log π(a|s) ,即 discounted return × Σ 梯度 log [选取该 action 的概率] 。 阅读全文
posted @ 2024-03-21 16:46 MoonOut 阅读(111) 评论(0) 推荐(0) 编辑
摘要: ① medium:中等策略。② random:随机策略。③ medium-replay:训到中等策略的整个 replay buffer。④ medium-expert:等量混合专家数据和次优数据(次优或随机策略)。 阅读全文
posted @ 2024-03-09 17:36 MoonOut 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 主要 trick:① 更新 A 时把 B stop-gradient,② 在 encoder 后添加神秘的 MLP 层。 阅读全文
posted @ 2024-03-07 20:40 MoonOut 阅读(157) 评论(0) 推荐(0) 编辑
摘要: ① 定义 non-Markovian reward 的输入是 trajectory,② 使用 exp Σ w(τ) · r(τ) 的 preference 形式。 阅读全文
posted @ 2024-03-06 12:57 MoonOut 阅读(144) 评论(1) 推荐(0) 编辑
摘要: Act as a reinforcement learning expert. Please do a review for representation learning in RL. Should focus on how to map a trajectory to a latent. 阅读全文
posted @ 2024-02-29 16:10 MoonOut 阅读(36) 评论(1) 推荐(0) 编辑
摘要: 将 offline HIM 应用到 PbRL,① 用离线轨迹训练 a=π(s,z) ,② 训练最优 hindsight z* 靠近 z+ 远离 z-。 阅读全文
posted @ 2024-02-27 21:38 MoonOut 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 将 offline 训练轨迹中,当前时刻之后发生的事 作为 hindsight,从而训练出 想要达到当前 hindsight 的 action。 阅读全文
posted @ 2024-02-27 21:08 MoonOut 阅读(57) 评论(0) 推荐(0) 编辑
摘要: ① sequence: {s, a, R, s, ...};② 在 s 的 decode 结果上加 MLP 预测 action;③ 给定 return-to-go 作为某种 hindsight。 阅读全文
posted @ 2024-02-27 20:14 MoonOut 阅读(144) 评论(0) 推荐(2) 编辑
摘要: 画图代码的存档。 阅读全文
posted @ 2024-02-20 11:29 MoonOut 阅读(212) 评论(0) 推荐(0) 编辑
摘要: Proportional-Integral-Derivative(PID),比例-积分-微分控制。 阅读全文
posted @ 2024-02-17 10:55 MoonOut 阅读(131) 评论(0) 推荐(0) 编辑
摘要: ① unlearn:保守 offline RL 训出的 Q function 太小,被 online 的真 reward 量级压制,导致 policy 初始化破坏,性能下降。② 校准:魔改 CQL 惩罚,令 Q_θ ≥ Q_β。 阅读全文
posted @ 2024-02-07 20:14 MoonOut 阅读(28) 评论(0) 推荐(0) 编辑
摘要: 在 offline + online buffer 的采样概率,应当与 d^{on}(s,a) / d^{off}(s,a) 成正比(importance sampling)。 阅读全文
posted @ 2024-02-07 14:08 MoonOut 阅读(141) 评论(0) 推荐(1) 编辑
摘要: 出分后发布笔记…… 阅读全文
posted @ 2024-02-06 11:01 MoonOut 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 出分后发布笔记…… 阅读全文
posted @ 2024-02-06 10:47 MoonOut 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 出分后发布笔记…… 阅读全文
posted @ 2024-02-06 10:37 MoonOut 阅读(16) 评论(0) 推荐(0) 编辑
摘要: 出分后发布笔记…… 阅读全文
posted @ 2024-02-06 10:37 MoonOut 阅读(17) 评论(0) 推荐(1) 编辑
摘要: 对于美丽的人和事物,美丽的感念与此刻,便只希望它能永远存在下去;如果可能的话,请永远停留在这里吧。 阅读全文
posted @ 2024-02-05 22:24 MoonOut 阅读(2) 评论(1) 推荐(0) 编辑
摘要: 采用 policy iteration 框架,① policy evaluation 普通更新 Q function,② policy update 使用 AWR 式更新,③ 前两步的采样数据集都是 offline + online。 阅读全文
posted @ 2024-02-05 21:50 MoonOut 阅读(108) 评论(0) 推荐(1) 编辑
摘要: 对于 policy improvement,maximize Q(s, π(s)) ,同时约束 π 与一个 prior policy 的 KL 散度,prior policy 用 advantage 非负的 offline 状态转移计算。 阅读全文
posted @ 2024-01-21 11:26 MoonOut 阅读(70) 评论(0) 推荐(0) 编辑
摘要: OpenReview 检索关键词:ICLR 2024、reinforcement learning、preference、human feedback。 阅读全文
posted @ 2024-01-21 11:17 MoonOut 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 为了帮助你更好地理解 Nested Partition 算法,a56爆大奖在线娱乐为你生成了一首诗,用比喻的方式描述了这种算法的过程。希望这对你有所帮助。? 阅读全文
posted @ 2024-01-13 11:06 MoonOut 阅读(50) 评论(1) 推荐(0) 编辑
摘要: 如果没有质量更好的第二季,宁愿它就这样停在第一季;已经很好了,已经很完美了。 阅读全文
posted @ 2023-12-17 16:15 MoonOut 阅读(15) 评论(1) 推荐(0) 编辑
摘要: critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error,① 对所转移去的 (s',a') 的 uncertainty 进行惩罚,② 对 (s, a_ood) 的 uncertainty 进行惩罚。 阅读全文
posted @ 2023-12-17 15:37 MoonOut 阅读(95) 评论(0) 推荐(0) 编辑
摘要: Query-Policy Misalignment:选择的看似 informative 的 query,实际上可能与 RL agent 的兴趣不一致,因此对 policy learning 帮助很小,最终导致 feedback-efficiency 低下。 阅读全文
posted @ 2023-12-17 15:28 MoonOut 阅读(36) 评论(1) 推荐(0) 编辑
摘要: 贡献:提出a56爆大奖在线娱乐生成非理性(模拟人类)preference 的方法,使用多样化的 preference,评测 PBRL 各环节算法设计(select informative queries、feedback schedule)的效果。 阅读全文
posted @ 2023-11-30 21:21 MoonOut 阅读(48) 评论(0) 推荐(0) 编辑
摘要: 非常感谢!去写作业了?? 阅读全文
posted @ 2023-11-28 15:34 MoonOut 阅读(10) 评论(0) 推荐(0) 编辑
摘要: ① 使用 VAE 建模 offline dataset 的 π(a|s),② 添加一个可以学习的 action 扰动 ξ,③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。 阅读全文
posted @ 2023-11-27 21:29 MoonOut 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 一篇知乎 TRPO 博客,感觉 idea 讲的很清楚,特来搬运。 阅读全文
posted @ 2023-11-27 15:47 MoonOut 阅读(19) 评论(0) 推荐(0) 编辑
摘要: ① 通过 (s,a,r,s',a') 更新 Q function,② 通过 Q 和 V 交替迭代,避免过拟合 s'~p(s'|a) 的随机好 s',误以为 a 是好 action,③ 通过 AWR 从 advantage 提取 policy。 阅读全文
posted @ 2023-11-25 20:12 MoonOut 阅读(214) 评论(0) 推荐(0) 编辑
摘要: ① 在 actor 最大化 Q advantage 时,纳入一个 behavior cloning loss; ② observation 归一化;③ 让 Q advantage 跟 behavior cloning 的 loss 可比。 阅读全文
posted @ 2023-11-19 17:02 MoonOut 阅读(328) 评论(0) 推荐(0) 编辑
摘要: 感觉讲的非常好,谢谢善良的博主 ??? 阅读全文
posted @ 2023-11-16 16:36 MoonOut 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 仅仅留下了一些印象,并没有看懂具体算法…… 如果需要重读这篇论文,会 refine 这篇阅读笔记的。 阅读全文
posted @ 2023-11-13 20:40 MoonOut 阅读(97) 评论(0) 推荐(0) 编辑