从 CES(国际消费类电子产品展览会 International Consumer Electronics Show)的进展来看,Google 现在确实在把语音互动这件事搞砸,而越来越变成一家很能折腾但不太能干好事的公司。Google 在公有云上不太可能超过 Amazon 了,自动驾驶折腾了好多年但看起来失败的可能性非常大,而在语音互动上 Google 很可能会再一次败给 Amazon。
语音助手上的大 PK
今年 CES 上最有意思的事情是语音互动型产品泛滥,从辉达到联想,各大巨头对此达成了共识,纷纷杀入。这里面比较核心的两家分别是 Amazon 和 Google,前者的代表产品是 Echo 和内建的语音助手 Alexa,后者则是 Google Home 和内建的语音助手 Google Assistant。
正常来讲不管从那个角度来看都是 Google 有足够的优势,有技术、有资源、有积累,但具体看下来 Google 实际上落后甚远,甚至可能难以挽回。
要想看懂语音互动这方向的走势,那么需要深度理解与之相关的产品和技术的本质特征。
Echo 这类产品的核心特征是多层技术高度融合(声学、语音辨识、语义、搜寻、内容)。其中声学是软硬件的分割点,向下关联产品 ID 以及内部架构,向上影响语音辨识。而语义之后的部分则是纯软件与内容。
对于 Amazon 和 Google 这样的公司,它们先天把自己定义为做生态和平台的公司,所以其核心一定不是 Echo 这个硬件产品本身,而是背后的语音助手比如 Alexa,因为只有 Alexa 才代表新的生态。
Alexa 这种语音助手很多人觉得是像 Android 一样的操作系统,但实际上看成是一个操作系统+超级 App 更为合适。
要把 Alexa 这样的语音助手装载到各种硬件里事实上有两种途径:
- 一种是纯软性方式。我就把语音助手做好,不管谁要用装进去就可以了。这种型态下在技术层次上最多需要下探到语音辨识,核心则是语义和对话。这型态最明显的参照是搜索引擎。
- 另一种则是软硬融合的方式。我做一个标竿型的硬件产品,然后再把硬件产品中的助手开放出去。这型态最明显的参照是 Android 这样的操作系统。
纯互联网公司会倾向第一种方式,因为这种型态最轻,而后一种型态要组织生产和销售,还要下探到声学这样的层次,无疑重很多。
但型态一的核心问题有两个:
- 语音互动很难在现有平台上启动(手机、平板、电脑),而直接把近场的语音互动迁移到远场效果会很差,谁来解决落地过程中各种坑坑洼洼的问题?
- 不知道硬件上的需求,如何设计出与各种硬件适配的 API,如何知道怎么提供对硬件厂商最便利的方案?把这种苦累活完全下放给各个硬件厂商自己摸索吗?
Google 开放 ASR 和 NLP 的 API 其实已经许久了,但从 CES 的结果来看,显然 Alexa 这种系统整合型的方案更受欢迎,它既解决了与下层硬件的适配问题,也解决了后端内容整合问题。
提高一层来看整件事情,我们可以讲做语音助手这事,事实上有几个关键控制点:
- 做标竿型的硬件产品,但不与已有用户习惯对立。直接讲就是新品类必须避开手机和 PAD,否则一定会被覆写掉。
- 丰富后端内容,对于语音助手而言,硬件、音乐甚至打电话都是内容。内容需要从头部开始逐渐填补长尾内容。引申就是要把 Alexa 和 Echo 这个产品分割开来,让它后面的东西尽可能多。
- 树立技术优势,在这里技术既包含深度学习这样的纯算法也包含声学等与物理紧密相连的网域。当内容没多到一定程度时,前端技术(声学和语音辨识)要比语义重要。因为它们更影响速度和精度。
亚马逊做对了什么?
在上一节提到的几个点上亚马逊几乎每个都做对了。
第一亚马逊没回避硬件的烦难,花了 4、5 年打造了 Echo,这样一来亚马逊就掌握了一个很难被超越的制高点。
这看着很诡异,但事实就会这样,否则的话 Google 直接把 Google Assistant 开放出来就行了,根本不需要自己打造什么 Google Home。但实际上硬件和背后 Assistant 的耦合程度远高于搜寻和浏览器,搜寻和浏览器的耦合程度事实上是便利不便利,但 Alexa 和前端硬件的耦合程度则牵涉好不好用的问题。而 Google 则是迫于 Echo 的压力才开始做 Google Home。
第二亚马逊在 Echo 获得初步成功后迅速开始分离 Echo 和 Alexa,具体动作就包括完整 SDK(ASK&AVS)的档案和案例,成立 Alexa Fund,积极搜寻战略合作伙伴等。最终结果之一就是所谓的 7,000 项技能。7,000 项技能是非常可怕的事,完全足以覆写技术和某些内容上的劣势。这就好比淘宝上商家数一旦超过某个临界值,QQ 流量再大也搞不定了。
那现在 Google 有几个第三方伙伴呢?1 个。而且 Google 似乎还在神游,它做为后来者本应该上来就把这一家族的东西都做了,这样才体现后发优势,但它并没有。
第三是用可靠的方案打造更优异的体验。可靠的方案是说前端至少要和亚马逊持平,后端再体现语义和内容连线上的优势,这样就可以在整体上反超。但 Google Home 很有意思的选了只装两支麦克风的方案,直接导致互动效果很差。这实在是大昏招,从便宜的角度解释是合理的,但你在做的是个标竿型产品,便宜与否真的那么关键吗?
这意味着什么?
这意味着 Google 可能很难追上 Amazon 了。
Google 和 Amazon 相比,无疑在技术层面会有优势,但是如果对技术进行分解,我们会发现实际上 Google 真正可能具优势只有 NLP 和搜寻部分。这就非常可怕,因为 NLP 部分不存在质的差异,你并无法在这个点上单凭算法明显拉开体验,且内容没多到一定程度的时候,搜寻的优势根本体现不出来。一旦技术突破,亚马逊在这部分就会累积足够的资料。请注意这里的资料是完全和场景符合的资料,而不是符合度低的网页公开资料,其中还包含了用户的各种偏好。
这时候没人会扮演陪练 Google 的角色,一起从头玩一遍。
在过去漫长的时间里,Google 这个公司有点被神话了,让人潜意识觉得它无所不能,但 Google 实在不是一个做产品的公司,我们也许可以把它定义为做算法的公司或对算法痴迷的公司。如果 Google 真的在语音互动这事上玩大了,那核心原因很可能就在这里。
做算法的时候技术是第一角度,但做产品的时候体验是第一角度,你无法掉过来玩:我这项技术很厉害,所以我要把它放进产品里,用户要为此买单;是要反过来思考,比如延迟、回应率和对答准确率在这类产品上影响用户体验,所以我要在现有技术上把这体验做到极致。
从表现出来的行为来看,Google 正好属于前一种。
上面说到的只装两支麦克风方案来达到 Google Home,从这个角度来解释也是合理的。比如说如果想在云端用深度学习等处理前端讯号问题,并坚信能做好,那这么选取前端方案就完全没问题,后端持续改善算法就行了。
但这样一来产品体验上打折扣就非常厉害。如果 Google 是第一个释出这种产品,可用时间很多,那也问题不大,关键它不是,它需要这样一款产品来和亚马逊的 Echo 竞争,这就可怕了。你是后发,哪怕做到一样的水准也没啥优势,何况你还差一截。挑战新技术这事在工程师思惟下是合理的,但在产品思惟下就错得离谱。
这类的问题点还有很多,比如你唤醒词叫什么不好非叫“OK Google”,做智慧助理显然 Alexa 更适合这种拟人一点的情景。
Google Home 出来后本应该使劲推广 Google Assistant 到各大厂商,而不是躺在既有的优势上睡大觉(Google 在技术、不同装置关联、内容上是有优势的,毕竟它有 YouTube 等),但从 CES 上来看,Google 并没有忙着做这事,至少到现在为止我们还看不到 Google 版的 Alexa Service Kit 和 Alexa Voice Service。
这样看来 Google 和亚马逊之间差了至少一年的差异。对打造产品的用户来讲选择哪家甚至是个不用考虑的问题,一边是有开放 API 很多第三方用户,一边是没有开放 API 只有一个第三方用户。换你也会这么选吧!(把软硬打通,API 封装到这个程度还是很费劲的,如果你不信,看看这里的文件吧。)
小结
Google 的业务最依赖云端,但事实上在云端服务败于亚马逊,Google 自动驾驶启动最早,但看趋势似乎会起个大早赶晚集;Google 人工智能投入最多,但从现在的进展来看,很可能会再次败给亚马逊。
如果说前两次失败不动摇根本,那这次很不一样,因为在 AI 这里互动即是搜寻,它其实输不起,输了就会变成另一个微软。
(本文由 36Kr 授权转载,首图来源:shutterstock)
延伸阅读:
- CES 2017 智慧语音操作大放异彩,Amazon Alexa 成幕后要角
- 与 Amazon Echo 相比,Google Home 为何只用了 2 个麦克风?
- 为与亚马逊 Echo 对决,Google 广邀其他厂商复制 Google Home
- Google I/O 上发表的 Google Home 似乎是“改装版”的 Chromecast
- Google I/O 2016:Google Assistant 与衍生的 Google Home、Allo、Duo 产品正式亮相,发表 DayDream 行动 VR 平台