bert一些思考

bert结构 首先是embdding lookup,【batch * seq】-->[batch, seq, hidden] 然后是加个mask embdding和type embdding和postion embdding作为最终 然后到transformers,transformers是24层的
posted @ 2020-04-17 17:28  dmesg  阅读(177)  评论(0编辑  收藏  举报