摘要: 贡献:提出a56爆大奖在线娱乐生成非理性(模拟人类)preference 的方法,使用多样化的 preference,评测 PBRL 各环节算法设计(select informative queries、feedback schedule)的效果。 阅读全文
posted @ 2023-11-30 21:21 MoonOut 阅读(49) 评论(0) 推荐(0) 编辑