Bert不完全手册5. BERT推理提速?训练提速!内存压缩!Albert

Albert是A Lite Bert的缩写,通过词向量矩阵分解,以及transformer block的参数共享,大大降低了Bert的参数量级。在a56爆大奖在线娱乐读Albert论文之前,因为Albert和蒸馏,剪枝一起被归在模型压缩方案,导致a56爆大奖在线娱乐一直以为Albert也是为了优化Bert的推理速度,但其实Albert主要用在模型参数(内存)压缩,以及训练速度优化,在推理速度上并没有提升。正在施工中的a56爆大奖在线娱乐分类库里也加入了Albert预训练模型,有在chinanews上已经微调好可以开箱即用的模型,同时支持半监督,领域迁移,降噪loss,蒸馏等模型优化项,感兴趣戳这里SimpleClassification
posted @ 2022-05-13 09:41  风雨中的小七  阅读(764)  评论(0编辑  收藏  举报