NVIDIA 正打造更强大智慧的 AI 语音对话模型,并于 INTERSPEECH 2021 大会展示成果;这些模型有助银行和零售商自动语音客服,也能让电玩游戏或书籍角色更生动,并即时为数位分身加上合成语音。
原本的自动电话语音和已经发展数十年的 GPS 导航系统都只能发出生硬的机器合成声音,AI 却让智能手机和智慧音箱虚拟助理呈现逼真语调。不过 AI 合成的声音和日常对话及媒体听到的真实人声还是有差,原因在于人类说话时带有复杂的节奏、音调和音色,很难以 AI 重现。
因此 NVIDIA 研究人员正在打造高品质、可控制的语音合成模型与工具,能捕捉人类说话声的丰富细节,又不会听起来人工感很重。不仅如此,表达性语言合成只是 NVIDIA Research 团队对话式 AI 研究之一,这领域还包括自然语言处理、自动语音辨识、关键字侦测、音讯增强等。这项先进研究成果的部分内容已透过 NVIDIA NeMo 工具套件成为开放源代码,可在 NGC 容器及其他软件中心取得,并经最佳化调整,能在 NVIDIA GPU 高效执行。
使用 NeMo 易用 API 和训练好的模型,协助研究人员开发和自订用于文字转语音、自然语言处理及即时自动语音辨识的模型。许多模型已在 NVIDIA DGX 系统使用超过十万小时开源资料集完成训练,开发人员可按照需要的应用场景,在 NVIDIA Tensor 核心 GPU 以混合精度运算微调任何模型。
另外,NVIDIA NeMo 还借由 NGC 提供 Mozilla Common Voice 训练的模型,Mozilla Common Voice 数据库有 76 种语言、近 1.4 万小时群众外包语音资料。这项由 NVIDIA 支持的专案企图以全球最大规模的开放数据语音数据库,让更多人接触语音技术。
NVIDIA 强调,此 AI 模型不只可用于配音,文字转语音的功能还能用在游戏、协助声音机能或语言机能障碍者,或帮助使用者用自己的声音翻译不同语言;甚至还能重现歌手表演,不仅可配合歌曲旋律,还能配合表达人声背后的情感。
(首图来源:NVIDIA)