Google 的 AI 又进化了！像真人一样打电话订位、回邮件 04月19日更新

你是那种一打电话就紧张害羞、偏好发邮件和讯息的人吗？如果是的话，恭喜你！人工智能已经可以完美解决你的困扰了。

Google 的人工智能助理 Google Assistant，最近学会了一项新技能：冒充真人给餐厅、发廊、酒店、咖啡馆、电影院……你能想到的所有各种消费场所打电话，帮你预约、查询讯息……

不信？请看下面的影片：

明明就是真人对不对！

这段对话是真的，而对话中的顾客一方，的确是由 Google Assistant 扮演的……

我们应该都听过 Google Assistant 的声音是什么样子。这段对话是女声，声音的背后是一位真的女生（姓名未知），在 Google 的总部花了几个月的时间录制，才将虚拟助手训练成现在的声音。

在过去，Google Assistant 以及包括 Siri、Cortana、Alexa 在内的所有虚拟语音助手，用的都是一种标准的、近似于语言课上标准发音、语速等的发音方式。

然而人类在现实中说话，有着各种各样的口音、语速，语调在不同字和词上有轻有重，在思考跟不上说话的时候会用“嗯”、“那个”、“you know”之类的填空词。

这也是为什么当和虚拟语音助理聊天时总感觉怪怪的，因为尽管你在心理上强迫自己将语音助手当成是人，他们给你的回复却总是自信而标准。这让你下意识立刻察觉到他们不是人，继而产生一种近似于“自说自话”的尴尬感。

在 2018 年 Google 开发者大会（ I/O）的主题演讲中，Google CEO 桑德尔·皮蔡（Sundar Pichai）表示，Google Assistant 部门的一个最重要的目标，就是让用户和虚拟助手的对话变得更加自然，就像和真人交流那样。

（Source：Google）

注意到在刚才的电话中，扮演顾客的 Google Assistant 在整个对话中多次出现了类似于真人的反应。

比如一开始，对方说出了“好的，请稍待一会儿”，之后是短暂的沉默。对方虽然说出了一个请等候的祈使句，在正常的人际交流中，顾客这边应该表示“好的”、“没问题”之类的意思，但对于虚拟助理这种以完成指令和回答问题为主要工作的人工智能而言，它没有理由对这一句做出任何覆，然而它还是在稍等了大约一秒钟后做出了一个“嗯哼”（Mm-hmm）的表达。

在通话接近尾声的位置，对方多次给出了问句，而 Google Assistant 这边尽管一直用的是陈述句来回答，却都在句尾用了升调，和人类使用英文进行对话表达时的习惯极为相似。

再比如，在通话中间，对方告知中午 12 点左右没有空，最近的是下午 1 点多。Google Assistant 的应变方式不是接受 1 点多，而是给了对方一个新的时间范围，并最终完成了预约。

以假乱真的语音生成能力之外，即兴是 Google Duplex 技术的另一个最主要的特色。在第二个案例中，这种即兴能力得到了更加充分的展示：

首先，有经验的朋友们大概已经听出来了，对方像是个中餐厅……餐厅老板的英文表达能力有限，并没有严格符合标准的英语语法，但扮演顾客的虚拟助理还是能够理解。

注意通话中间，餐厅老板告知“4 个人不用订位，可以直接来”时，原则上虚拟助理到这里就可以挂电话了，因为订位的任务已经完成。然而它没有挂掉，而是做出了一个堪称优秀的即兴追问：“通常候位时间有多久”。

如果之前就挂掉，这只是一个普通的通话而已，而这个即兴的存在，在 Google CEO 桑德尔·皮蔡看来，让双方之间互动得更“优雅”（gracefully）了。

Duplex 的功能还不仅限于和对话。在完成一通电话之后，如果取得了结果，Google Assistant 会用通知提醒用户，并在日历上记录事件。

（Source：Google Blog）

皮蔡表示，公司在自然语言理解，深度学习和语言转文字上投入巨大，而 Duplex 对这三大技术融会贯通。“Duplex 还有很长的路要走，不是所有的电话都完美结束，但这项技术已经能够理解对话的上下文，每句话所表达的细微的意义差别。”

不过，自然语言理解仍是一项非常高难度，在真实环境中面临着巨大挑战的技术。Duplex 在面对极其复杂的语句时，仍然有很大的压力和错误率。还是在预约的场景下，在一个案例中，对方非常口语化地介绍了店家在工作日和周末不同的营业时间，然后自己对同一句中之前的表述做了修改。

但皮蔡还是对 Duplex 充满信心，“如果最后能做好，这项技术将为商户和顾客带来极大的价值。”

除了 Duplex 技术之外，在这次 I/O 大会上，Google 也宣布了虚拟助理其他非常多的功能更新，其中有不少十分强大。

1. 新的声音：可能用户已经听腻了 Google Assistant 的标准声音，这也是为什么 Google 决定为它再增加 6 种不同的男声和女声。其中就有一种来自于曾经在《乐来越爱你》里出演过的美国歌手约翰·传奇（John Legend）。

不过，厉害的并不是请来约翰·传奇，而在于 Google 为Assistant 生成新声音的效率有多高。

DeepMind 训练出了一个深度神经网络模型 WaveNet，能够高效地生成原始音频。利用 WaveNet，只用很少量的语料，辅以强大的计算，Google 就可以制作出和原始语料相似度极高的语音形象，花费时间从几个月降低到了几百小时。

2. 多轮对话能力进步：在过去，跟 Google Assistant 对话，需要每一句前面都加一个唤醒词“Ok Google”。从今天开始这个设定终于退役了，因为 Google Assistant 获得了增强的多轮对话能力。不仅如此，它还能理解你是在跟它还是跟别人说话，不会尴尬地加入到聊天当中。

3. 多重任务处理（Multiple Actions）：自然语言交流的一个特点就是复杂性，一句话里面可能同时表达多个意思。最直观的例子，“请看一下今天的天气发给安妮”、“今天纽约和奥斯汀的天气怎么样”，或者“把厨房的灯和厕所的换气关掉”。

只要记性不差，正常人都能完成，而且多半会下意识将它们看做是同一个任务。问题是在过去，别提多重任务，某些虚拟助理连一个简单的任务都完成不了。

不过从今天开始，Google Assistant 将能够一次性处理多重任务了。

4. Gmail 智慧写邮件（Smart Compse）：你应该知道 Gmail、Inbox 支援智慧回复，但过去只有“感谢”、“就这样”之类的简单回复。很快，Gmail 就将获得一个强大的智慧写邮件功能。就像搜索引擎的自动完成一样，Gmail 也会根据你写的上一个单词自动建议下一个单词，直到你把整个邮件都写完。

听起来挺扯的，但不妨看看效果：

5 . 推荐动作（Suggested Actions）：跟 Google Photos 结合，基于人工智能的一些贴心小功能。比如推荐把合照分享给朋友、照片曝光不足时会建议增加曝光、检测到拍照的内容是文件的话，会自动转成扫描文档；以及最棒的功能──上传一张黑白或者褪色的老照片，自动增加颜色！

目前，Google Assistant 已经进入了超过 5 亿支手机、汽车和智慧家庭设备。到今年底它将支援 30 种语言、进入 80 个国家市场。

在皮蔡看来，Google Assistant 存在的意义是帮助所有的用户，包括个人用户、中小企业，四肢心智健全或者有不同残疾的人，用人工智能去改善他们的生活。

仅仅两年前的 I/O，Google Assistant 才首次亮相，很难想像一个刚两岁的新产品已经如此强大，影响和改变着用户数位生活的各方面。

（本文由 PingWest 授权转载；首图来源：Google）

Google 的 AI 又进化了！像真人一样打电话订位、回邮件

延伸阅读：

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图