会员
众包
新闻
博问
闪存
云市场
所有博客
当前博客
a56爆大奖在线娱乐的博客
a56爆大奖在线娱乐的园子
账号设置
简洁模式
...
退出登录
注册
登录
月出兮彩云归 ?
首页
新随笔
联系
订阅
管理
PbRL | RUNE:鼓励 agent 探索 reward model 更不确定的 (s,a)
reward model 对某 (s,a) 的不确定性,由一系列 ensemble reward models 的输出结果方差的度量,直接乘一个超参数,作为 intrinsic reward 的一部分。
reward model 对某 (s,a) 的不确定性,由一系列 ensemble reward models 的输出结果方差的度量,直接乘一个超参数,作为 intrinsic reward 的一部分。
posted @
2023-11-10 17:43
MoonOut
阅读(
243
) 评论(
0
)
编辑
收藏
举报
指间灵动,快码加编
刷新页面
返回顶部
公告