PbRL | B-Pref:生成多样非理性 preference,建立 PBRL benchmark

贡献:提出a56爆大奖在线娱乐生成非理性(模拟人类)preference 的方法,使用多样化的 preference,评测 PBRL 各环节算法设计(select informative queries、feedback schedule)的效果。
posted @ 2023-11-30 21:21  MoonOut  阅读(48)  评论(0编辑  收藏  举报