为了让视障人士能够“阅读”世界及参与数位经济发展,阿里巴巴旗下的达摩研究院研发出“读光”技术,也就是所谓的光学字符识别(Optical Character Recognitio,OCR),将光学与运算技术结合,对文本资料的图像文件进行分析识别处理,获取文字及版面资讯,让视障者也能借此享受科技便利。
简而言之,读光是将图片资讯化为语音,让视障者用耳朵“读取”资讯。OCR 技术最初用于印刷体文字辨识,例如邮政系统的邮编数字识别,以实现邮件自动分拣功能。但随着光学设备(如扫描仪器、数码相机及手机等)的飞速发展, OCR 应用领域日益广泛,包含车牌识别、证件识别、票据识别等众多场景。
阿里巴巴指出,虽然目前新款智能手机一般具备朗读功能,不过,图片资讯目前并不能被识别出来,而达摩院的 OCR 技术则改善了此一情况。像是让淘宝具备了自动识别图片的能力;在 2018 年,淘宝天猫正式推出“听图购物”的程序,将“读光”应用至购物体验之中,能够精准地把图片中的资讯转为语音,让视障用户能够靠听力购物。
达摩院资深算法专家、阿里巴巴 OCR 技术负责人王永攀表示,阿里巴巴的技术团队从 2010 年就开始致力于解决图像中的文字问题,只要使用者打开(手机)旁白功能,OCR 就会在这些应用程序里面,自动启动读光 OCR 功能;且读光的阅读速度非常的快,对视障人士而言非常流畅。
除了打造读光技术外,阿里巴巴集团在今年也成立“讯息无障碍委员会”,包含 10 个阿里巴巴业务及 14 个不同的产品部门,除了不断完善阿里巴巴各款产品的无障碍化外,该委员会也于技术探索、行业发展、标准制定、倡导宣传等方面有所建树,相关成果也多次入选讯息无障碍产业白皮书及案例汇编等。
(首图来源:阿里巴巴)