PbRL | 速通 ICLR 2024 RLHF · PbRL

OpenReview 检索关键词:ICLR 2024、reinforcement learning、preference、human feedback。
posted @ 2024-01-21 11:17  MoonOut  阅读(173)  评论(0编辑  收藏  举报