为使开发人员能打造更高效能的搜索引擎、广告建议与聊天机器人,NVIDIA 近日宣布推出第八代人工智能软件 TensorRT 8,其特色在于能让语言查询的推论时间减半,只需要 1.2 毫秒就能在 BERT-Large 上达到破纪录的语言应用速度,而 BERT-Large 是全世界最被广泛使用的 Transformer 模型之一。
NVIDIA 开发人员计划事业部副总裁 Greg Estes 表示,AI 模型正以指数级的速度变得越来越复杂,而全球各地对于使用 AI 的即时应用需求也随之高涨。这让企业迫切地部署最新的推论解决方案。最新版本的 TensorRT 导入全新的功能,可以让企业把对话式 AI 应用交付给客户,达到更快的反应速度。
TensorRT 8 只需要 1.2 毫秒就能在 BERT-Large 上达到破纪录的语言应用速度,企业以往只能缩小模型的大小,但也因此造成较低的精准度;透过TensorRT 8,企业可以把模型的大小扩增两倍或三倍,大幅提升精准度。
另外,TensorRT 8 还透过另外两个关键功能达成 AI 推论的突破,分别是稀疏性(Sparsity)和量化感知训练。所谓的稀疏性,是 NVIDIA Ampere 架构 GPU 中用以提升效率的效能技术,可以让开发人员借由减少运算作业以加速神经网络。
至于量化感知训练,则让开发人员可以在不牺牲精准度的情况下,运用已训练好的模型和 INT8 的精度运行推论,这让他们在 Tensor 核心上进行高效率推论时,可以大幅减少运算与储存的时间。
(首图来源:NVIDIA)