人工智能,中国有自己的那一套,阿里巴巴推出的语音扬声器 Tmall Genie 类似亚马逊的 Echo,搭载语音助理 AliGenie,可以线上购物、查看天气、放音乐、控制家中的智慧装置。百度也有对话平台叫做 DuerOS,可以添加在家用机器人、电视机上盒、HTC 智能手机上,中国科技巨擘期待自家语音助理可以吸引投资者,与亚马逊互别苗头。
事实上这个市场潜力无穷,IDC 预期 2020 年 51% 的中国智慧驾驶产业,68% 的电话与穿戴产业会搭载语音人工智能系统。麻省理工科技评论(MIT Technology Review)报导认为,中国发展语音系统有迹可循,因为中文输入相对麻烦,这也是为何中国消费者早就习惯语音留言取代文字输入使用 WeChat。
但是现在中国的语音助理技术可以执行命令,无法对话,因为对话运算没那么简单,必须先解决中文的复杂性。报导举例,在中文世界当中,同样的单字安排在不同的顺序上意义就会不同,即使顺序相同,意思也会随上下文出现差异。此外,中国没有像英文的空格,所以中国自然语言处理研究人员必须教育算法在哪里插入空格,以建立句子适当的意义。且中文没有时态,所以机器很难辨识句子的时间意义。
更别说中国有许多方言,对机器学习而言也是一大挑战。研究自然语言处理的清华大学副教授指出,为了真正了解人类话中的意图并进行适当沟通,电脑不得不采用语调和压力等细微的线索。 他们也必须了解情绪,因为人类的决策不是完全依赖逻辑。
为了使系统更智慧,百度在平台上引入培训师模式,让软件开发人员透过内建的注释机器人即时提供语言数据,机器人接收到开发者反馈从中学习,然后更正系统。
报导认为,中国研究人员解决这些问题的一个优势是大量数据,由于支持当今电脑语言理解的神经网络需要大量数据训练,因此拥有的数据愈多,其神经网络将更智慧化。截至 2016 年底,百度每月活跃行动用户达 6.65 亿户,截至今年 3 月,阿里巴巴每月有 5.07 亿行动用户。
但是阿里巴巴的人工智能科学家王刚表示,研究人员必须设计不需要大量数据的神经网络,才能让机器语言学习更有效率。他说,毕竟在现实世界中,人们用不同方式表达同样意义,电脑不可能学会所有解释。
王刚与研究团队开发一种不需庞大数据,只要相关主题的数据就可训练电脑理解主题的方法,例如为了训练神经网络了解运动医学文本,只需使用运动与医学数据,就特定主题训练神经网络。虽然使用特定主题资料的效果不如大量数据,但是在数据量有限的情况下,这种方法特别有用。
由于对话界面的互动更自然,将可吸引更多人进入网络世界,而最终语音助理成功的关键就是内容和服务。如在中国推出小鱼声控家庭助理机器人的 Ainemo,计划透过百度的 DuerOS 对话平台在家庭语音助理中建立教育和医疗保健项目,目标是为不太会使用电脑与智能手机上网,特别是老人与幼儿提供基于语音的服务。
- For Computers, Too, It’s Hard to Learn to Speak Chinese
(首图来源:Flickr/Jonathan Kos-Read CC BY 2.0)