offline RL | D4RL:最常用的 offline 数据集之一

① medium:中等策略。② random:随机策略。③ medium-replay:训到中等策略的整个 replay buffer。④ medium-expert:等量混合专家数据和次优数据(次优或随机策略)。
posted @ 2024-03-09 17:36  MoonOut  阅读(18)  评论(0编辑  收藏  举报