欢迎光临GGAMen游戏资讯




微软发布更新版 DeepSpeed 库,能以更少 GPU 做到“兆级”AI 模型训练

2024-12-25 282


微软(Microsoft)11 日发布更新版 DeepSpeed 库,此深度学习优化库引进新方法训练包含上兆参数的 AI 人工智能模型,亦即模型内部可提供预测变量。微软宣称名为“3D 平行”(3D parallelism)的技术,可适应不同的工作负载需求,以便运行超大模型,同时平衡扩充效率。 

有数十亿个参数的单一大规模 AI 模型,在一系列有挑战性的领域取得巨大进展。研究表明之所以表现出色的原因,是因可理解语言、文法、知识、概念和情境脉络的细微差别,能归纳演讲,让即时游戏聊天的内容不致太偏激,能解析复杂的法律文件,甚至可透过搜寻 GitHub 产生程式码。但训练模型需要大量运算资源。据 2018 年 OpenAI 的分析,从 2012 年到 2018 年,规模最大的 AI 训练中,使用运算量成长 30 万倍,训练时间也翻倍达 3.5 个月,远远超越摩尔定律。

单一上兆参数模型只需要 800 颗 GPU 便可训练

强化更新版 DeepSpeed 运用三种技术达成“兆级”模型训练:资料平行训练、模型平行训练和管线化平行训练(Pipeline Parallel Training)。训练一个上兆参数模型需要至少 400 颗 Nvidia A100 GPU 合起来的内存容量(每个 CPU 拥有 40GB 内存),微软估计透过 4,000 颗 A100 以 50% 效率运行,约需 100 天才能完成训练。这完全不是微软与 OpenAI 共同设计 AI 超级电脑的对手,包含 1 万多张绘图卡,但这样的规模下想获得高运算效率往往很困难。

在四级管线阶段,DeepSpeed 将大型模型分为较小组件(层)。每级管线阶段的阶层会进一步划分给 4 个“worker”,它们会执行实际训练。每个管道都可在两个资料平行实例复制,且 worker 会映射到多 GPU 系统。拜上述及其他效能改进之赐,微软表示,单一上兆参数模型只需 800 颗 Nvidia V100 GPU 便可训练。

最新版 DeepSpeed 还搭载零卸载(ZeRO-Offload)技术,充分运用 GPU 及主机 CPU 运算和内存资源,因此能在单颗 V100 训练高达 130 亿个参数的模型。微软声称这比最新技术的运算量还要大 10 倍,进而让资料科学家可用更少运算资源训练。

“这些 DeepSpeed 的新技术提供极致运算、内存和通讯效率,做到数十亿至数兆个参数的模型训练。”微软部落格写道:“这些技术还允许超长输入序列,并能在只有单一 GPU 的硬件系统,拥有数千颗 GPU 高端丛集,或在拥有超慢以太网路的低端丛集运行……我们持续快速创新,不断突破深度学习训练的速度和规模限制。”

  • Microsoft’s updated DeepSpeed can train trillion-parameter AI models with fewer GPUs

(首图来源:shutterstock)

2020-09-13 00:08:00

标签:   游戏头条 资讯头条 ggamen科技资讯 ggamen科技 ggamen科技资讯头条 科技资讯头条 ggamen游戏财经 新闻网 科技新闻网 科技新闻 ggamen ggamen游戏新闻网 科技新闻网 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技资讯头条 ggamen科技 ggamen科技资讯 资讯头条 ggamen 科技新闻 科技新闻网 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技 ggamen科技资讯 资讯头条 游戏头条
0