offline 2 online | Cal-QL：校准保守 offline 训出的 Q value，让它与真实 reward 尺度相当

① unlearn：保守 offline RL 训出的 Q function 太小，被 online 的真 reward 量级压制，导致 policy 初始化破坏，性能下降。② 校准：魔改 CQL 惩罚，令 Q_θ ≥ Q_β。