会员
众包
新闻
博问
闪存
云市场
所有博客
当前博客
a56爆大奖在线娱乐的博客
a56爆大奖在线娱乐的园子
账号设置
简洁模式
...
退出登录
注册
登录
SilentSamsara
博客园
首页
新随笔
联系
管理
订阅
学习日志-2021.10.04
学习日志-2021.10.04 博弈论与多智能体强化学习(续) 文献阅读: 学习自动机强化方案 学习自动机是相对简单的策略迭代器,在动作集a上保持向量动作概率p。这些概率根据从环境接收到的反馈进行更新。 这种方案最初的研究主要集中在n-臂赌博机(n-armed bandit)环境中的单个自动机。 最
posted @
2021-10-04 21:43
SilentSamsara
阅读(
105
) 评论(
1
)
编辑
收藏
举报
指间灵动,快码加编
刷新页面
返回顶部