摘要:
Albert是A Lite Bert的缩写,通过词向量矩阵分解,以及transformer block的参数共享,大大降低了Bert的参数量级。在a56爆大奖在线娱乐读Albert论文之前,因为Albert和蒸馏,剪枝一起被归在模型压缩方案,导致a56爆大奖在线娱乐一直以为Albert也是为了优化Bert的推理速度,但其实Albert主要用在模型参数(内存)压缩,以及训练速度优化,在推理速度上并没有提升。正在施工中的a56爆大奖在线娱乐分类库里也加入了Albert预训练模型,有在chinanews上已经微调好可以开箱即用的模型,同时支持半监督,领域迁移,降噪loss,蒸馏等模型优化项,感兴趣戳这里SimpleClassification 阅读全文
![Bert不完全手册5. BERT推理提速?训练提速!内存压缩!Albert](https://img2022.cnblogs.com/blog/1326688/202205/1326688-20220513093227410-709980506.png)