Google 发表音讯分离技术，可抽离影片中各人物的语音 04月20日更新

Google 发表了名为 Audio-Visual Speech Separation 的音讯分离技术，能够透过分析影像以及声音的特征，将影片中各人物所说的话分离成独立音轨，如此一来就能让观众在双人同时讲话的影片中，自由选择要听谁的语音，此外这项技术也能用来分离背景杂音，强化视讯通话时的音质表现。

人工智能协助分析

当人类专注于聆听某个人说话时，头脑会“自动调低”其他人与环境杂音的音量，让人可以在吵杂的场合也能彼此交谈。然而要透过电脑个别人物的语音单独抽离出来，仍然是个相当艰钜的挑战。

Google 的软件研发团队在《Looking to Listen at the Cocktail Party》一文中，提出了透过深度学习与声音-影像模型的方式分离语音的技术，能够强化影片中特定人物的语音，并消除其他人的声音与环境音。

这项技术最大的特色，在于它会同时分析影片中的影像与声音，透过辨识人物表情的变化，提升辨识精准度，同时它也能应用于一般单声道影片，系统会自动辨识影片中的人物与声音，观众需要做的只要点选影片中出现的人脸，就能只听到他的声音。

在研发过程中，团队引用了 10 万支 YouTube 只有单一讲者的无干扰演讲影片，并将这些总时数长达 2,000 小时的影片混入其他演讲影片与背景杂音，以用于训练多重串流卷积神经网络（Multi-Stream Convolutional Neural Network），让人工智能发挥分离音讯的效果。

▲ Audio-Visual Speech Separation技术可以将影片中不同人的声音分离。（Source：Looking to Listen at the Cocktail Party）

▲ 该技术不但会分析声音，也会分析影片中人物的嘴型与表情。（Source：Looking to Listen at the Cocktail Party）

▲ 在人工智能的协助下，这项技术能够分离多个人物的语音与背景杂音。（Source：Google Research Blog）

实际效果展示

开发团队也公布了许多 Audio-Visual Speech Separation 的展示影片，读者可以从下列影片中看出这项技术的效果确实十分出色。

▲ 随着影片的播放，可以看到切换到不同音轨时，就只会出现指定人物的语音。

▲ 原始影片为 2 人激烈争论，在 Audio-Visual Speech Separation 的处理下，可以让观众选择只听右方主播的声音。

▲ Audio-Visual Speech Separation 也能用来消除背景杂音。

▲ 这项技术也可以应用于强化视讯通话的音质表现。

开发团队表示，Audio-Visual Speech Separation 除了有助于让观众选择想要聆听的人物声音之外，也能用来消除背景杂音，强化影片与视讯通话的音质表现，此外，将音讯分离后也有助于提升语音辨识系统自动产生字幕的精确度，适用范围相当广泛，Google 也在研究如何应用于其他 Google 产品上，或许在不久的未来就能在更多地方看到这项技术。

（本文由 T客邦授权转载；首图来源：pixabay）

Google 发表音讯分离技术，可抽离影片中各人物的语音

人工智能协助分析

实际效果展示

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图