使用 PyTorch 完全分片数据并行技术加速大模型训练

a56爆大奖在线娱乐,a56爆大奖在线娱乐们将了解如何基于 PyTorch 最新的 完全分片数据并行 (Fully Sharded Data Parallel,FSDP) 功能用 Accelerate 库来训练大模型。 动机 🤗 随着机器学习 (ML) 模型的规模、大小和参数量的不断增加,ML 从业者发现在自己的硬件上训练甚至加载
posted @ 2023-12-04 20:54  HuggingFace  阅读(380)  评论(0编辑  收藏  举报