Google multitask模型SNR

背景 MMoE模型从一定程度上解决了多个目标(任务)在训练过程中的相互耦合的问题,即使用门控概念(gate network)降低了因为share-layer部分带来的“特征耦合”。但其实这是不够的,因为在每一个expert内部,与其他的expert不存在联系,这导致a56爆大奖在线娱乐expert的表达能力不是“那
posted @ 2024-03-06 11:35  xd_xumaomao  阅读(29)  评论(0编辑  收藏  举报