美国时间 5 月 8 日,Google 在 2018 年度开发者大会(Google I/O 2018)介绍了智慧语音助手 Google Assistant 新增的 Duplex,可以打电话给餐厅、发廊等店家,帮用户预约时间。
AI 语音助手与人交流、完成指令已不是新鲜事。如果你常跟 Siri 对话,或你有一台亚马逊 Echo、LINE 熊大等智慧喇叭,你会发现,跟 AI 对话实在太费劲,需要字正腔圆,还要一次次说唤醒词,无法连续对话。
Duplex 让人惊讶的是:它不仅用自然流畅的词句和电话另一头的人类交流,且对方根本没有意识到打电话来的居然是个 AI。这是因为 Google Duplex 达成连续对话、加入人在对话时通常会使用的语助词 emm、uha 等,能理解对话内文,此外还具备主动提供语料的功能。
这样的双向对话,一直是微软、苹果、亚马逊、Facebook 这些做对话式人工智能的公司努力的方向。Google 这次放了大招,获得很高的关注,微软显然坐不住了,赶紧站出来说,且慢,我们才是先做到这项技术突破的。
关于这件事,微软发了一篇技术声明。以下为声明全文:
全双工语音技术(Full Duplex)的意义在于,它能使“人机互动”进化为“人机交流”。二字之差,价值巨大。
今年 4 月 4 日,我们正式在美国和中国同步发表了 Full Duplex 感官,并预言工业将意识到这技术的价值,加快向这方向集中。我们很高兴看到越来越多同业者加入。
其实,人类历史上第一次与人工智能进行全双工语音电话,并不是发生在美国,而是发生在中国。我们很荣幸能将这一桂冠奉献给中国。自 2016 年 8 月起,微软(亚洲)网络工程院透过人类用户主动发起的方式,已让小冰与人类用户累计完成了超过 60 万通电话。
今天,我们公布其中一通发生在两年前的实际电话录音,为珍贵的资料,奉献给全世界说中文的华人。
这技术已经完成产品落地。两年来,正是在人类的训练下,小冰已不局限于任何封闭域,而是可针对开放域进行全双工语音对话。目前,微软已落地的对话场景包括传统电话、VoIP 电话和智慧喇叭装置,微软小冰的车载路试正在进行。
如果您想要体验 Full Duplex 全双工语音,不需等待数周,今天就能。在微软小冰已落地的产品中,我们建议您使用我们与小米合作的米家生态链 Yeelight 智慧硬件产品。在随附的用户真实使用影片,您将体会到:
- 一次唤醒之后的连续对话
- 微软小冰对用户的预测模型
- 帮助用户轻松完成多重工作
- 小冰的内容创造能力
- 以及最重要的:人机情感交流
人工智能时代已来,让我们持续创新。
微软的声明有了 3 个关键点:首先,在技术层面上,微软今年 4 月 4 日正式发表“全双工语音互动”技术;其次,事件事实上,微软在两年前就达成 AI 与人类通电话;最后,产品落地上,微软的全双工语音互动已具备多个场景,且搭载全双工语音互动技术的微软小冰已经出现在智慧喇叭──米家生态链 Yeelight 智慧硬件产品。
微软所说的全双工语音互动技术(Full-Deplex Voice)与 Google Duplex 的技术框架和达成功能应该类似。
微软对“全双工语音互动技术”的定义是:与既有的单轮或多轮连续语音辨识不同,这项新技术可即时预测人类将说出的内容,生成因应并控制对话节奏,能理解对话场景在诉说者/倾听者之间角色转变,还可以辨识说话人的性别、有几个人在说话。
也就是说,与只能做到单轮语音的智慧语音助手不同,能连续对话的全双工语音互动能达成和人类双向交流,而这种双向交流最常见的场景就是通电话。因为通电话是短时间内持续对话的过程,对通话双方的即时反应要求最高。
3 月 28 日,微软也在北京召开媒体交流会,详细介绍过“全双工语音互动技术”。
全双工语音互动背后主要有两个关键技术:一个是预测模型,边听边想;例如,当用户说出一句话,小冰会先回答“嗯,你说”,然后再完成指令,这样就可以填补完成指令的空白时间。
另一个是生成模型(LSTM),能理解场景,自动生成回复。正常的对话都不是单向的一问一答,小冰也会在适当的时候主动提供内容,并能知道用户完成指令沉默几秒后自动结束对话。现在运用全双工语音互动技术的微软小冰所有回复都是自己生成的,有别于传统的基于模组、搜寻的回复。
Google Duplex 的技术分析也提到,Duplex 的核心是 RNN(循环神经)网络,由 TensorFlow Extended(RFX)构建,Google 用匿名电话对话资料训练 Duplex 的 RNN 网络,这个网络会使用 Google 自动语音辨识(ASR)的辨识结果文字档,同时也会使用音档的特征、对话历史、对话参数(比如要预定的服务、目前时间)等。
汇入语音先经过自动语音辨识系统(ASR)处理,生成的文字档会与内文资料及其他一起汇入 RNN 网络,生成的回应文字再透过文字转语音(TTS)系统读出来。
Google 用的生成模型是 RNN,微软用的是 LSTM,从体验来看,两者的效果很接近。跟 Yeelight 的微软小冰对话时,能做到一次唤醒连续对话长达 20 分钟,有适当的语气词,能主动提供预料,主动结束对话。
Google I/O 大会最后一天,获得年度图灵奖的 Alphabet 新任董事长 John Hennessy 宣布:“在预约领域,Google Duplex 通过了图灵测试。”也就是说,目前 Google Duplex 与人类对话,人类无法辨识其是机器人。这个消息,确实令人振奋。与搭载微软全双工语音互动技术的微软小冰相比,Google Duplex 的一大特色是音色和语调与真人几乎一致,这是他们花费数月采集真人声音训练的结果。
Google 称,今年夏天会开始基于 Google Assistant 测试 Duplex,从预订餐厅、预订发廊、询问假日的营业时间这种事项开始。微软小冰则将人工智能助手和聊天机器人结合起来,努力进入各场景,包括传统电话、VoIP 电话和智慧喇叭装置,微软小冰的车载路测也在进行。
微软全双工语音技术已在做产品落地,却被还在测试的 Google Duplex 抢占锋头,难免有点着急。
然而如果回想技术发展的历程,我们会记得,1844 年,莫尔斯从华盛顿到巴尔的摩拍了人类史上第一封电报,说的是:“上帝呀,你究竟干了些什么?”1876 年,贝尔发明世界第一台电话,他说的第一句话“沃森先生,快来帮我”成为人类第一句透过电话传输的语音。然而,人工智能助手与人类的第一通电话显然难以定义了,毕竟我们在人工智能的发展上,还有很长的路要走。
(本文由 雷锋网 授权转载;首图来源:shutterstock)
延伸阅读:
- 会打电话的 AI 背后:Google Duplex 技术解析
- Google 的 AI 又进化了!像真人一样打电话订位、回邮件