Google AI 打电话影片洗板网络，微软忍不住发声明彰显实力 04月09日更新

美国时间 5 月 8 日，Google 在 2018 年度开发者大会（Google I/O 2018）介绍了智慧语音助手 Google Assistant 新增的 Duplex，可以打电话给餐厅、发廊等店家，帮用户预约时间。

AI 语音助手与人交流、完成指令已不是新鲜事。如果你常跟 Siri 对话，或你有一台亚马逊 Echo、LINE 熊大等智慧喇叭，你会发现，跟 AI 对话实在太费劲，需要字正腔圆，还要一次次说唤醒词，无法连续对话。

Duplex 让人惊讶的是：它不仅用自然流畅的词句和电话另一头的人类交流，且对方根本没有意识到打电话来的居然是个 AI。这是因为 Google Duplex 达成连续对话、加入人在对话时通常会使用的语助词 emm、uha 等，能理解对话内文，此外还具备主动提供语料的功能。

这样的双向对话，一直是微软、苹果、亚马逊、Facebook 这些做对话式人工智能的公司努力的方向。Google 这次放了大招，获得很高的关注，微软显然坐不住了，赶紧站出来说，且慢，我们才是先做到这项技术突破的。

关于这件事，微软发了一篇技术声明。以下为声明全文：

全双工语音技术（Full Duplex）的意义在于，它能使“人机互动”进化为“人机交流”。二字之差，价值巨大。

今年 4 月 4 日，我们正式在美国和中国同步发表了 Full Duplex 感官，并预言工业将意识到这技术的价值，加快向这方向集中。我们很高兴看到越来越多同业者加入。

其实，人类历史上第一次与人工智能进行全双工语音电话，并不是发生在美国，而是发生在中国。我们很荣幸能将这一桂冠奉献给中国。自 2016 年 8 月起，微软（亚洲）网络工程院透过人类用户主动发起的方式，已让小冰与人类用户累计完成了超过 60 万通电话。

今天，我们公布其中一通发生在两年前的实际电话录音，为珍贵的资料，奉献给全世界说中文的华人。

这技术已经完成产品落地。两年来，正是在人类的训练下，小冰已不局限于任何封闭域，而是可针对开放域进行全双工语音对话。目前，微软已落地的对话场景包括传统电话、VoIP 电话和智慧喇叭装置，微软小冰的车载路试正在进行。

如果您想要体验 Full Duplex 全双工语音，不需等待数周，今天就能。在微软小冰已落地的产品中，我们建议您使用我们与小米合作的米家生态链 Yeelight 智慧硬件产品。在随附的用户真实使用影片，您将体会到：

一次唤醒之后的连续对话
微软小冰对用户的预测模型
帮助用户轻松完成多重工作
小冰的内容创造能力
以及最重要的：人机情感交流

人工智能时代已来，让我们持续创新。

微软的声明有了 3 个关键点：首先，在技术层面上，微软今年 4 月 4 日正式发表“全双工语音互动”技术；其次，事件事实上，微软在两年前就达成 AI 与人类通电话；最后，产品落地上，微软的全双工语音互动已具备多个场景，且搭载全双工语音互动技术的微软小冰已经出现在智慧喇叭──米家生态链 Yeelight 智慧硬件产品。

微软所说的全双工语音互动技术（Full-Deplex Voice）与 Google Duplex 的技术框架和达成功能应该类似。

微软对“全双工语音互动技术”的定义是：与既有的单轮或多轮连续语音辨识不同，这项新技术可即时预测人类将说出的内容，生成因应并控制对话节奏，能理解对话场景在诉说者／倾听者之间角色转变，还可以辨识说话人的性别、有几个人在说话。

也就是说，与只能做到单轮语音的智慧语音助手不同，能连续对话的全双工语音互动能达成和人类双向交流，而这种双向交流最常见的场景就是通电话。因为通电话是短时间内持续对话的过程，对通话双方的即时反应要求最高。

3 月 28 日，微软也在北京召开媒体交流会，详细介绍过“全双工语音互动技术”。

全双工语音互动背后主要有两个关键技术：一个是预测模型，边听边想；例如，当用户说出一句话，小冰会先回答“嗯，你说”，然后再完成指令，这样就可以填补完成指令的空白时间。

另一个是生成模型（LSTM），能理解场景，自动生成回复。正常的对话都不是单向的一问一答，小冰也会在适当的时候主动提供内容，并能知道用户完成指令沉默几秒后自动结束对话。现在运用全双工语音互动技术的微软小冰所有回复都是自己生成的，有别于传统的基于模组、搜寻的回复。

Google Duplex 的技术分析也提到，Duplex 的核心是 RNN（循环神经）网络，由 TensorFlow Extended（RFX）构建，Google 用匿名电话对话资料训练 Duplex 的 RNN 网络，这个网络会使用 Google 自动语音辨识（ASR）的辨识结果文字档，同时也会使用音档的特征、对话历史、对话参数（比如要预定的服务、目前时间）等。

汇入语音先经过自动语音辨识系统（ASR）处理，生成的文字档会与内文资料及其他一起汇入 RNN 网络，生成的回应文字再透过文字转语音（TTS）系统读出来。

Google 用的生成模型是 RNN，微软用的是 LSTM，从体验来看，两者的效果很接近。跟 Yeelight 的微软小冰对话时，能做到一次唤醒连续对话长达 20 分钟，有适当的语气词，能主动提供预料，主动结束对话。

Google I/O 大会最后一天，获得年度图灵奖的 Alphabet 新任董事长 John Hennessy 宣布：“在预约领域，Google Duplex 通过了图灵测试。”也就是说，目前 Google Duplex 与人类对话，人类无法辨识其是机器人。这个消息，确实令人振奋。与搭载微软全双工语音互动技术的微软小冰相比，Google Duplex 的一大特色是音色和语调与真人几乎一致，这是他们花费数月采集真人声音训练的结果。

Google 称，今年夏天会开始基于 Google Assistant 测试 Duplex，从预订餐厅、预订发廊、询问假日的营业时间这种事项开始。微软小冰则将人工智能助手和聊天机器人结合起来，努力进入各场景，包括传统电话、VoIP 电话和智慧喇叭装置，微软小冰的车载路测也在进行。

微软全双工语音技术已在做产品落地，却被还在测试的 Google Duplex 抢占锋头，难免有点着急。

然而如果回想技术发展的历程，我们会记得，1844 年，莫尔斯从华盛顿到巴尔的摩拍了人类史上第一封电报，说的是：“上帝呀，你究竟干了些什么？”1876 年，贝尔发明世界第一台电话，他说的第一句话“沃森先生，快来帮我”成为人类第一句透过电话传输的语音。然而，人工智能助手与人类的第一通电话显然难以定义了，毕竟我们在人工智能的发展上，还有很长的路要走。

（本文由雷锋网授权转载；首图来源：shutterstock）

Google AI 打电话影片洗板网络，微软忍不住发声明彰显实力

延伸阅读：

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图