AI 对话更像人类，NVIDIA 打造高仿真语音合成模型 02月24日更新

NVIDIA 正打造更强大智慧的 AI 语音对话模型，并于 INTERSPEECH 2021 大会展示成果；这些模型有助银行和零售商自动语音客服，也能让电玩游戏或书籍角色更生动，并即时为数位分身加上合成语音。

原本的自动电话语音和已经发展数十年的 GPS 导航系统都只能发出生硬的机器合成声音，AI 却让智能手机和智慧音箱虚拟助理呈现逼真语调。不过 AI 合成的声音和日常对话及媒体听到的真实人声还是有差，原因在于人类说话时带有复杂的节奏、音调和音色，很难以 AI 重现。

因此 NVIDIA 研究人员正在打造高品质、可控制的语音合成模型与工具，能捕捉人类说话声的丰富细节，又不会听起来人工感很重。不仅如此，表达性语言合成只是 NVIDIA Research 团队对话式 AI 研究之一，这领域还包括自然语言处理、自动语音辨识、关键字侦测、音讯增强等。这项先进研究成果的部分内容已透过 NVIDIA NeMo 工具套件成为开放源代码，可在 NGC 容器及其他软件中心取得，并经最佳化调整，能在 NVIDIA GPU 高效执行。

使用 NeMo 易用 API 和训练好的模型，协助研究人员开发和自订用于文字转语音、自然语言处理及即时自动语音辨识的模型。许多模型已在 NVIDIA DGX 系统使用超过十万小时开源资料集完成训练，开发人员可按照需要的应用场景，在 NVIDIA Tensor 核心 GPU 以混合精度运算微调任何模型。

另外，NVIDIA NeMo 还借由 NGC 提供 Mozilla Common Voice 训练的模型，Mozilla Common Voice 数据库有 76 种语言、近 1.4 万小时群众外包语音资料。这项由 NVIDIA 支持的专案企图以全球最大规模的开放数据语音数据库，让更多人接触语音技术。

NVIDIA 强调，此 AI 模型不只可用于配音，文字转语音的功能还能用在游戏、协助声音机能或语言机能障碍者，或帮助使用者用自己的声音翻译不同语言；甚至还能重现歌手表演，不仅可配合歌曲旋律，还能配合表达人声背后的情感。

（首图来源：NVIDIA）

AI 对话更像人类，NVIDIA 打造高仿真语音合成模型

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

"Metaphorical Fantasy: ReFantazio"latest new

"Persona 3 Reload".ON PC PS4

姐妹们 !我们村的咖啡馆老火了

库迪瑞幸价格战，小镇咖啡会受影响吗？

王者榮耀攻速暴擊流呂布銘文出裝

王者榮耀最強暴擊流李白怎麽出裝，暴擊流李白出裝銘文裝備推薦

王者榮耀國服夏洛特最強輸出流出裝連招銘文推薦

沒有2023年王者榮耀1月2日更新了什麽？最新改動具體內容

鬥羅大陸魂師對決千仞雪魂環搭配 sp千仞雪技能解析

鬥羅大陸魂師對決最強控製流陣容怎麽搭配？獨孤博阿銀控製流玩法

关于我们

新闻资讯

意见反馈

网站地图