根据蓝色巨人 IBM在官网上的公布,该公司已经开发出针对语音辨识,错误率达到 5.5% 的系统。根据这样结果,显示当前电脑语音辨识的能力已经与人类达到差不多的水准。
IBM 指出,人们在说话时,对方每听 20 个单字或词,就有可能会漏掉或听错 1 到 2 个。以此比例计算,人类在 5 分钟的对话中,有可能会听错 80 个单字或词。只是就人类来说,多数人在理解说话的意思上没有问题。然而这样的情况对电脑可就不一样。
2016 年,IBM 宣布在自然对话环境中的语音辨识上获得重大进展,也就是开发出单字或词错误率为 6.9% 的系统,之后还在不断进步。现在 IBM 宣布,已经达到新的业界纪录,创下 5.5% 错误率。而 IBM 研究人员在达成这个突破时,是专注于应用深度学习技术,将 LSTM 和 WaveNet 语言模型与其他 3 个强大的声学模型结合起来的结果。
使用的 3 个声学模型中,前 2 个为双向 6 层 LSTM。包括一个为多特征输入,另一个则是有对话多任务学习能力。最后一个模型不仅能从积极的例子中学习,也能利用消极的例子,这将使系统变得越来越聪明,在之后重复出现类似的说话风格时,便能表现更好。
IBM 表示,达成与人类同等水准,也就是错误率与一般 2 个人类说话时相当,长期以来都是在开发语音辨识时的目标,目前其他公司也正在努力追赶 IBM 的纪录。在这样的成就上,IBM 与合作伙伴 Appen 正合作呈现与人类相同水准的语音辨识系统。
不过,虽然 IBM 达成 5.5% 的错误率是一次大突破,但有其他厂商的研究发现,真正的电脑语音辨识要达到人类同等水准,其错误率应该下降到 5.1%。虽然只有 0.4% 错误率的差别,但就目前的科技技术来说,要达到与人类相同水准的错误率,还有很大一段需要努力的距离。
(首图来源:shutterstock)