MoonOut - 博客园_a56爆大奖在线娱乐

2023年11月13日

PbRL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark

摘要：发现对于很多任务，（只要给出专家轨迹），将 reward 设为 0 或随机数，也能学出很好 policy，证明这些任务不适合用来评测 reward learning 的性能好坏。阅读全文

posted @ 2023-11-13 18:11 MoonOut 阅读(235) 评论(0) 推荐(0) 编辑

2023年11月11日

PbRL | SURF：使用半监督学习，对 labeled segment pair 进行数据增强

摘要： ① 将 high-confidence 的预测 (σ0, σ1) 标上 pseudo-label；② 将 labeled segment pair 进行时序剪裁，得到更多数据增强的 labeled pair。阅读全文

posted @ 2023-11-11 20:16 MoonOut 阅读(174) 评论(0) 推荐(1) 编辑

线性代数 · 矩阵 · Matlab | Moore-Penrose 伪逆矩阵代码实现

摘要：写伪逆矩阵计算代码，是专业课作业 2333，挑了两个好实现的算法写一下。阅读全文

posted @ 2023-11-11 12:01 MoonOut 阅读(149) 评论(0) 推荐(0) 编辑

2023年11月10日

PbRL | RUNE：鼓励 agent 探索 reward model 更不确定的 (s,a)

摘要： reward model 对某 (s,a) 的不确定性，由一系列 ensemble reward models 的输出结果方差的度量，直接乘一个超参数，作为 intrinsic reward 的一部分。阅读全文

posted @ 2023-11-10 17:43 MoonOut 阅读(241) 评论(0) 推荐(3) 编辑

2023年11月9日

PbRL | PEBBLE：通过 human preference 学习 reward model

摘要： ① 使用熵 intrinsic reward 的 agent pre-training，② 选择尽可能 informative 的 queries 去获取 preference，③ 使用更新后的 reward model 对 replay buffer 进行 relabel。阅读全文

posted @ 2023-11-09 20:40 MoonOut 阅读(212) 评论(0) 推荐(0) 编辑

2023年11月7日

offline RL | CQL：魔改 Bellman error 更新，得到 Q 函数 lower-bound

摘要：把 OOD 的 Q 函数值拉低，ID 的 Q 函数值拉高，因此倾向于选择原来数据集里有的 ID 的 action。阅读全文

posted @ 2023-11-07 15:12 MoonOut 阅读(489) 评论(0) 推荐(2) 编辑

凸优化 | Lagrange 对偶：极大极小不等式的证明

摘要： sup inf ≤ inf sup，证明关键： inf_w f(w,z) 是 f(w0,z) 逐点下界，对于�a56爆大奖在线娱乐� w0。阅读全文

posted @ 2023-11-07 10:51 MoonOut 阅读(80) 评论(1) 推荐(0) 编辑

2023年11月4日

线性代数 · 矩阵 · Matlab | 满秩分解代码实现

摘要：满秩分解的计算方法，居然意外的简单。阅读全文

posted @ 2023-11-04 17:07 MoonOut 阅读(147) 评论(0) 推荐(0) 编辑

2023年11月2日

RL 基础 | Policy Iteration 的收敛性证明

摘要： 1. Policy Evaluation 会收敛，因为贝尔曼算子是压缩映射；2. Policy Improvement 有策略性能改进的保证。阅读全文

posted @ 2023-11-02 10:44 MoonOut 阅读(66) 评论(0) 推荐(0) 编辑

2023年11月1日

线性代数 · 矩阵 · Matlab | Cholesky 分解代码实现

摘要： Cholesky 分解是 LU 分解（三角分解）的特殊形式，n 阶实对称正定矩阵 A = LL^T，其中 L 为下三角；搬运外网的代码，非原创。阅读全文

posted @ 2023-11-01 14:23 MoonOut 阅读(139) 评论(0) 推荐(0) 编辑

2023年10月24日

RL 基础 | Value Iteration 的收敛性证明

摘要：贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射，因此 {V, BV, B?V, ...} 是柯西序列，会收敛到 V=BV 的不动点。阅读全文

posted @ 2023-10-24 09:40 MoonOut 阅读(402) 评论(0) 推荐(0) 编辑

2023年10月7日

python · ssh · SQL | python 连接远程 SQL 数据库

摘要：代码存档：先写一个 python 的 ssh 连接，再在 ssh 连接里面连 SQL。阅读全文

posted @ 2023-10-07 21:03 MoonOut 阅读(86) 评论(0) 推荐(0) 编辑

Markdown · Typora | 基本画图技巧

摘要：在 typora 中使用 mermaid，实现简单的 markdown 画图。阅读全文

posted @ 2023-10-07 20:53 MoonOut 阅读(228) 评论(0) 推荐(0) 编辑

2023年9月7日

关于传统迁移学习的一点概念

摘要：感谢学姐的口述讲授 ? （学姐貌似很厉害，发了很多 ccf-a）阅读全文

posted @ 2023-09-07 21:10 MoonOut 阅读(61) 评论(0) 推荐(0) 编辑

2023年8月22日

python · SQL | MySQL 配置与 python 连接数据库

摘要： MySQL 配置 + python 连接 SQL 的简洁教程（以及 SQL server 貌似不太好用）阅读全文

posted @ 2023-08-22 18:41 MoonOut 阅读(39) 评论(0) 推荐(0) 编辑

2023年8月13日

TOEFL | 202307 改革 · 新版题型总结

摘要： 20230726 改革托福题型后，题目更少、考试更轻松了，但容错率也随之降低… 阅读全文

posted @ 2023-08-13 15:07 MoonOut 阅读(123) 评论(0) 推荐(0) 编辑

2023年7月31日

TOEFL | Reading · 题型总结

摘要： 1. 先判断题型，2. 跳过读题干 or 细读题干。如果细读题干，请务必认真读题干！阅读全文

posted @ 2023-07-31 12:08 MoonOut 阅读(24) 评论(0) 推荐(0) 编辑

2023年6月24日

大二上 | 一些四六级护身符的存档

摘要：当时背了好几篇范文，写作文时把这些 fancy 句子一通缝合，果然可以得高分? 阅读全文

posted @ 2023-06-24 12:12 MoonOut 阅读(20) 评论(0) 推荐(0) 编辑

2023年6月16日

LaTex · overleaf | 使用技巧存档

摘要：零零散散的经验，存下来方便查阅。阅读全文

posted @ 2023-06-16 10:10 MoonOut 阅读(146) 评论(0) 推荐(0) 编辑

2023年6月10日

杂谈 | 十二井穴缓解新冠症状

摘要：还是很信服中医的，a56爆大奖在线娱乐来存个档。阅读全文

posted @ 2023-06-10 21:03 MoonOut 阅读(49) 评论(0) 推荐(0) 编辑

时空图预测的方法论，以及 diffusion model 基本概念

摘要：时空图预测：构造 0 ~ t-1 的 t 个图，然后把 GNN 操作、时序预测操作一通叠加。diffusion：a56爆大奖在线娱乐加噪声的训练方法。感谢善良的同学 ?? 阅读全文

posted @ 2023-06-10 20:55 MoonOut 阅读(199) 评论(0) 推荐(0) 编辑

命题文案 | kwdnx、谷雨、更漏与a56爆大奖在线娱乐

摘要：在 2019 年某个微雪的冬日，在a56爆大奖在线娱乐们彼此相聚的稀少时光里，在雪花轻缓而静寂的飘落下：时间的流逝，能否再慢一点呢？阅读全文

posted @ 2023-06-10 19:52 MoonOut 阅读(31) 评论(0) 推荐(0) 编辑

传说中 PUE 预测精度高达 0.005 的工作

摘要： ① 用 ML 得到 PUE 模型，② 对各个控制变量做灵敏度分析，③ 试图这样减小 PUE：在腾讯改了一个水流量参数，果然获得一点能效提升。阅读全文

posted @ 2023-06-10 19:38 MoonOut 阅读(27) 评论(0) 推荐(0) 编辑

大二上 | 计算机组成原理 · 小测试卷

摘要：趁老师不注意，把试卷拍了照…… 阅读全文

posted @ 2023-06-10 19:23 MoonOut 阅读(32) 评论(0) 推荐(0) 编辑

大二下 | 计算机体系结构 · 期中试卷

摘要：趁老师不注意，把试卷拍了照…… 阅读全文

posted @ 2023-06-10 19:18 MoonOut 阅读(17) 评论(0) 推荐(0) 编辑

大二上 | 数据结构 · 期中试卷

摘要：趁老师不注意，把试卷拍了照…… 阅读全文

posted @ 2023-06-10 19:15 MoonOut 阅读(35) 评论(0) 推荐(0) 编辑

大二上 | 数据结构 · 小测试卷

摘要：趁老师不注意，把试卷拍了照…… 阅读全文

posted @ 2023-06-10 19:11 MoonOut 阅读(13) 评论(0) 推荐(0) 编辑

大二下 | 操作系统（全英）· 期中试卷

摘要：趁老师不注意，把试卷拍了照…… 阅读全文

posted @ 2023-06-10 19:07 MoonOut 阅读(10) 评论(0) 推荐(0) 编辑

2023年5月31日

RL 基础 | 如何注册自定义 gym 环境

摘要：感谢善良的知乎博客?? 阅读全文

posted @ 2023-05-31 10:59 MoonOut 阅读(84) 评论(0) 推荐(0) 编辑

2023年5月26日

python · matplotlib | 如何绘制子图

摘要： subplots 子图，scatter 散点图，plot 连点成线，color 与 fontsize。阅读全文

posted @ 2023-05-26 10:55 MoonOut 阅读(71) 评论(0) 推荐(0) 编辑

2023年5月25日

python 基础 | 实现微秒级计时

摘要：使用 python datetime 库，实现微秒级计时。阅读全文

posted @ 2023-05-25 21:52 MoonOut 阅读(119) 评论(0) 推荐(0) 编辑

2023年5月14日

如何实现 Excel 表格转置（行列互换）

摘要：先复制粘贴，在粘贴时点“选择性粘贴”，点选“转置”。阅读全文

posted @ 2023-05-14 10:03 MoonOut 阅读(36) 评论(0) 推荐(0) 编辑

2023年4月16日

用 Gaussian Process 建模 state-action 空间相关性，加速 Multi-Fidelity RL

摘要：基于 14 年的 MFRL 论文，利用相邻 state-action 的空间相关性来加速学习，用 gaussian processes 建模 env dynamics（model-based）/ Q function（model-free），得到了两种跟 14 年 MFRL 很相似的算法。阅读全文

posted @ 2023-04-16 13:21 MoonOut 阅读(91) 评论(0) 推荐(0) 编辑

2023年4月15日

打 multi-fidelity RL 旗号，但是幼稚监督学习 + 迁移学习

摘要： RL episode 长度 = 1，先用 PPO 在 low-fidelity env 上学；维护一个 reward 的方差，如果方差足够小，就从 low-fidelity env 迁移到 high-fidelity env。阅读全文

posted @ 2023-04-15 19:51 MoonOut 阅读(13) 评论(0) 推荐(0) 编辑

Mathpix：屏幕截图 ? latex 公式，一键转换

摘要：安利一天能免费使用 10 次且好用的工具 Mathpix。阅读全文

posted @ 2023-04-15 18:59 MoonOut 阅读(59) 评论(0) 推荐(0) 编辑

在有限 computational budget 下，借助 low-fidelity 模型提高精度

摘要： motivation：一些预算用于训 low-fidelity model，剩下预算用于 Monte Carlo 模拟，以得到结果。数学证明：近似 + 递推或迭代或归纳法。总结：目前看来，对a56爆大奖在线娱乐的工作意义不大。阅读全文

posted @ 2023-04-15 18:56 MoonOut 阅读(93) 评论(0) 推荐(0) 编辑

2023年4月14日

大四下 | 本科毕业设计 · 中期答辩经验贴

摘要：记于柳絮飞扬的癸卯年丙辰月…… 阅读全文

posted @ 2023-04-14 16:11 MoonOut 阅读(566) 评论(0) 推荐(0) 编辑

2023年4月12日

LaTex · markdown | 如何写矩阵和大公式

摘要： markdown 写矩阵和大公式的代码存档。阅读全文

posted @ 2023-04-12 09:33 MoonOut 阅读(46) 评论(0) 推荐(0) 编辑

2023年4月6日

RL 的探索策略 | Exploration for RL

摘要： motivation：鼓励探索。主要方法：给 agent 不熟悉的 state 一个 intrinsic reward。关键问题：如何判断 agent 对某个 state 的熟悉程度。阅读全文

posted @ 2023-04-06 21:58 MoonOut 阅读(281) 评论(0) 推荐(0) 编辑

游记 | 20230402 · 牛首山踏春 · 南京眼夜景

摘要： “a56爆大奖在线娱乐们走到了南京眼，趴在桥上看长江、灯火与晚风，享受一些天真又忧愁的少年时光。” 阅读全文

posted @ 2023-04-06 16:02 MoonOut 阅读(126) 评论(0) 推荐(0) 编辑