自今年 5 月 TensorRT 8-EA 版(Early Access,尝鲜版)发表后,Nvidia 终于在 20 日发表 TensorRT 8 正式版。
支援Nvidia GPU平台的深度学习推理框架,TensorRT 8正式版与以往版本相比,能在1.2毫秒内运行全球广为采用的基于transforemer模型之一BERT-Large,即将语言查询推理时间缩短至上一版一半,创下最新纪录,为搜索引擎、广告推荐和聊天机器人的AI模型提供支援。
Nvidia声称,TensorRT8不仅针对transformer突破性最佳化,还新增其他两项关键特性,突破AI推理。
推理时间缩短至1.2毫秒,速度提升1倍
“AI模型以指数级的速度增长,很多公司不得不缩减模型大小以追求回应速度。Nvidia 2016年推出的TensorRT可帮助这些企业扩大规模,提升精确度。”AI软件部的产品管理总监Kari Briski回顾TensorRT推出背景时说。
TensorRT是Nvidia自家深度学习推理框架,模型推理过程可将Pytorch、TensorFlow等其他框架训练好的模型转化为TensorRT格式,再使用TensorRT推理引擎运行,提升模型在GPU的运行速度。支援更多模型和进一步缩短推理时间,提高推理速度是广大AI软件开发者对TensorRT升级的普遍期望。
2019年,黄仁勋在GTC China发表TensorRT 7。相比只支援30多种模型的TensorRT 5,TensorRT 7支援各种类型RNN、Transformer和CNN,支援多达1千多种不同类型的计算变换和优化,还能让推理时间缩短至0.3秒,为此黄仁勋称为“最大飞跃”。
这次更新的TensorRT 8版本,虽然升级“飞跃”程度比不上从5.0版本到7.0版本的升级,但也有一定程度更新。Nvidia宣称,TensorRT 8各项最佳化为语言带来创纪录速度,能在1.2毫秒内运行全球广为采用的基于transforemer模型之一BERT-Large,帮助企业将模型扩大1倍或2倍,提高精确度。
落实到应用,这种推理速度能让对话式AI更智慧,互动应用程序性能也能提升。
新增两项核心技术,是推理速度提升的关键
凭借TensorRT提升模型在Nvidia GPU的运行速度,主要得益于TensorRT一系列最佳化:
- 权重与启动精确度校准:透过将模型量化为INT8更提升输送量,同时保持高精确度,力求精确度和输送量的最大平衡。
- 层与张量融合:透过融合内核节点,最佳化GPU视讯内存和带宽使用。
- 内核自动调整:基于目标GPU选择最佳的数据层和算法。
- 动态张量显存:更大限度减少视讯内存占用,为张量高效重复利用内存。
- 多流执行:并行处理多个输入流的可扩展设计。
简单而言,就是在力求以低混合精确度提升输送量的同时,减少计算和内存存取,合并网络层。
TensorRT 8版本,Nvidia又新加入两个关键特性,以突破AI推理性能。一是稀疏性,TensorRT 8精确度推理时,降低深度学习模型部分权重,减少模型所需带宽和内存,提升效率时使开发者减少计算操作并加速神经网络。此技术能帮助NVIDIA Ampere架构GPU性能提升。
二是量化感知训练。开发者使用训练好的模型,以INT8精确度推理,且不会造成精确度损失,大大减少计算和储存成本,在Tensor Core核心上高效推理。
TensorRT诞生第五年,下载次数近250万次
推理模型的速度优势让TensorRT广受欢迎。五年来有医疗、汽车、金融和零售等各领域27,500家企业,超过25万名开发者下载使用TensorRT,累计次数近250万次。
GE医疗是TensorRT消费者之一,使用TensorRT助力加速早期检测疾病的关键工具:超音波计算机视觉创新,使临床医生透过职能医疗解决方案提供最高品质的护理。
GE医疗心血管超声首席工程师Erik Steen表示:“临床医生需要花费宝贵时间选择和评估超音波图。Vivid Patient Care Elevated Release专案研发过程,希望透过Vivid E95扫描器执行自动心脏视图检测。心脏检视算法将选择合适的图像分析心壁运动。TensorRT凭著即时推理能力,提高视图检测算法性能,同时缩短研发产品上市时间。”
开源AI技术的领导者Hugging Face也与Nvidia密切合作,产品总监Jeff Boudier表示,透过TensorRT 8,Hugging Face在BERT实现1毫秒推理延迟,十分期待今年稍晚为客户提供新性能。
TensorRT 8已全面上市,免费提供Nvidia计划开发者成员,用户能从TensoRT GitHub库取得最新版插件、解析器和样本开放原始程式码。
(本文由 雷锋网 授权转载;首图来源:科技新报)