微软发布更新版 DeepSpeed 库，能以更少 GPU 做到“兆级”AI 模型训练 04月30日更新

微软（Microsoft）11 日发布更新版 DeepSpeed 库，此深度学习优化库引进新方法训练包含上兆参数的 AI 人工智能模型，亦即模型内部可提供预测变量。微软宣称名为“3D 平行”（3D parallelism）的技术，可适应不同的工作负载需求，以便运行超大模型，同时平衡扩充效率。

有数十亿个参数的单一大规模 AI 模型，在一系列有挑战性的领域取得巨大进展。研究表明之所以表现出色的原因，是因可理解语言、文法、知识、概念和情境脉络的细微差别，能归纳演讲，让即时游戏聊天的内容不致太偏激，能解析复杂的法律文件，甚至可透过搜寻 GitHub 产生程式码。但训练模型需要大量运算资源。据 2018 年 OpenAI 的分析，从 2012 年到 2018 年，规模最大的 AI 训练中，使用运算量成长 30 万倍，训练时间也翻倍达 3.5 个月，远远超越摩尔定律。

单一上兆参数模型只需要 800 颗 GPU 便可训练

强化更新版 DeepSpeed 运用三种技术达成“兆级”模型训练：资料平行训练、模型平行训练和管线化平行训练（Pipeline Parallel Training）。训练一个上兆参数模型需要至少 400 颗 Nvidia A100 GPU 合起来的内存容量（每个 CPU 拥有 40GB 内存），微软估计透过 4,000 颗 A100 以 50% 效率运行，约需 100 天才能完成训练。这完全不是微软与 OpenAI 共同设计 AI 超级电脑的对手，包含 1 万多张绘图卡，但这样的规模下想获得高运算效率往往很困难。

在四级管线阶段，DeepSpeed 将大型模型分为较小组件（层）。每级管线阶段的阶层会进一步划分给 4 个“worker”，它们会执行实际训练。每个管道都可在两个资料平行实例复制，且 worker 会映射到多 GPU 系统。拜上述及其他效能改进之赐，微软表示，单一上兆参数模型只需 800 颗 Nvidia V100 GPU 便可训练。

最新版 DeepSpeed 还搭载零卸载（ZeRO-Offload）技术，充分运用 GPU 及主机 CPU 运算和内存资源，因此能在单颗 V100 训练高达 130 亿个参数的模型。微软声称这比最新技术的运算量还要大 10 倍，进而让资料科学家可用更少运算资源训练。

“这些 DeepSpeed 的新技术提供极致运算、内存和通讯效率，做到数十亿至数兆个参数的模型训练。”微软部落格写道：“这些技术还允许超长输入序列，并能在只有单一 GPU 的硬件系统，拥有数千颗 GPU 高端丛集，或在拥有超慢以太网路的低端丛集运行……我们持续快速创新，不断突破深度学习训练的速度和规模限制。”

Microsoft’s updated DeepSpeed can train trillion-parameter AI models with fewer GPUs

（首图来源：shutterstock）

微软发布更新版 DeepSpeed 库，能以更少 GPU 做到“兆级”AI 模型训练

单一上兆参数模型只需要 800 颗 GPU 便可训练

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

"Metaphorical Fantasy: ReFantazio"latest new

"Persona 3 Reload".ON PC PS4

姐妹们 !我们村的咖啡馆老火了

库迪瑞幸价格战，小镇咖啡会受影响吗？

王者榮耀攻速暴擊流呂布銘文出裝

王者榮耀最強暴擊流李白怎麽出裝，暴擊流李白出裝銘文裝備推薦

王者榮耀國服夏洛特最強輸出流出裝連招銘文推薦

沒有2023年王者榮耀1月2日更新了什麽？最新改動具體內容

鬥羅大陸魂師對決千仞雪魂環搭配 sp千仞雪技能解析

鬥羅大陸魂師對決最強控製流陣容怎麽搭配？獨孤博阿銀控製流玩法

关于我们

新闻资讯

意见反馈

网站地图