offline RL | CQL:魔改 Bellman error 更新,得到 Q 函数 lower-bound

把 OOD 的 Q 函数值拉低,ID 的 Q 函数值拉高,因此倾向于选择原来数据集里有的 ID 的 action。
posted @ 2023-11-07 15:12  MoonOut  阅读(490)  评论(0编辑  收藏  举报