欢迎光临GGAMen游戏资讯




【CES 2019 台湾新创团队】利用 AI 进行多人声分离,RelaJet 让听障者听见想听的声音

2024-12-24 219

对于听障者来说,最主要面临的问题有二。第一是助听器价格高昂,以全球六大品牌为例,平均价格约在 6 万台币左右,高阶的甚至要 15 万,负担相当沉重。第二,许多传统助听器的效果不够好,一旦周遭环境音量太大声,想清楚听见谈话者讲话难度就会相当高。本身也是听障者的陈柏儒(Blue Chen)为了解决这些困境,集合一群专精 AI 算法的团队,创立 RelaJet 洞见未来,要以“多人声分离”引擎,协助听障者拥有更好的聆听体验。

辨识声音特征值,助听障者聆听特定对象

从人耳接收声音,到大脑获取有意义的讯息,整个听觉历程(auditory hierarchy)中有任一个环节出错,都算是听觉障碍。陈柏儒解释道,通常听障者在喧闹环境使用助听器时,所有的声音都会被麦克风接收,听障者很难分辨聆听对象的声音。但一般人的听觉系统,具备了专注于某人谈话的能力,能够自动忽略背景其他对话与噪音。例如在人声鼎沸的宴会上,我们不但可以听见面前朋友的讲话声,也可以听到远方有人呼喊我们。只要是我们“正在注意”的声源所发出的音量,感觉通常是其他同音量声源的三倍,这就是所谓的“鸡尾酒会效应(cocktail party effect)”。RelaJet 的技术,就是要帮听障者改善听觉历程中“察觉”、“区辨”及“辨识”等阶段的问题。

要达到改善的效果,首先就是找出聆听对象的声音特征值,才能让听障者专注聆听特定对象谈话。透过 Relajet 采用神经网络引擎(neural network engine),声音的输入及输出都是透过脉波编码调变(pulse-code modulation,PCM);经由深度学习的方法,10 毫秒以内就能完成“多人声分离”,找出声音特征值。而处理的方式主要有以下两种:

第一种是“预先储存声音特征值”。假设在吵闹的室内我需要跟 John 对话,就可以先请 John 在手机 APP 上录下 2~3 秒的音档,多人声分离引擎记录 John 的声音特征值后,从此只要麦克风接收到他的声音就会加强,其他的声音则会被消除。

第二种则是所谓的“盲听”。手机 APP 不用事先标注某人的声音特征值,而是借由多人声分离引擎即时感测出有多少人在讲话,然后使用者再选取想要谈话对象的声音特征值,引擎就会加强这些声音,并将其他人的声音消除。

作为听障者的同理心,却让创新在最严苛的条件中发生

能够在 10 毫秒内完成所有特征值辨识的运算,是 RelaJet 多人声分离引擎最大的优势。至于为什么是 10 毫秒?因为助听器处理语音的时间若超过这极限,人耳就会感受到延迟,产生头晕的现象,所以被归类在医疗器材的助听器,都要求必须在 10 毫秒以内完成所有的处理步骤。

陈柏儒指著自己耳朵上戴的助听器说道:“我比较幸运,助听器一耳要 14 万台币,两耳就是 28 万,家里还能够负担得起这笔花费,但我依然没有办法像一般人听得清楚、发音标准。更何况是那些没戴助听器或是买不起的人呢?”帮助比他还要不幸的听障者,成为他创业的初衷,因此 RelaJet 要求自家技术必须经得起医疗器材等级规范的考验,首要目标就是将这套引擎导入全球六大品牌的助听器中。当然,若能在医材市场立足,往后也再往蓝牙耳机、智慧音箱等需求较低的消费性市场迈进,也不会是个难题。

▲ 陈柏儒本身深知听障者的痛点何在,于是总能即时回馈使用者体验,加快 RelaJet 的技术研发流程。(图片来源:科技新报)

紧密关注政策及市场变化,以技术授权抢先布局

被问到为何选在这个时间点创业,陈柏儒表示,是因为预见了美国助听器市场将出现变动,因此才毅然决然辞掉原本在联发科的工作,跳出来创业。这个即将发生的变动,就是美国食品药品监督管理局(FDA)即将在 2020 年开放非处方(Over-the-Counter,OTC)助听器上路,不但能大幅减低实验跟认证的成本,让助听器平价化;且购买管道也会更加开放,不再有那么繁琐的验配流程。

其实,在非处方助听器正式开放前,除了受 FDA 认证规范的助听器外,当前市面上还有所谓的辅听器(Personal Sound Amplification Product,PSAP),外型及功能都与助听器很相似,差别则在于辅听器并不属于医疗器材,且较为便宜,多为轻度听障者使用,也有许多消费性电子装置品牌商在耕耘这块市场。如三星、SONY、BOSE 等已经着手推出带有辅听功能的蓝牙耳机;而像是 Apple 的 AirPod,也已能结合语音助理,并透过 iOS 12 增加辅听功能。他们都算是产品的先行者,准备从辅听器转攻非处方助听器,现阶段 RelaJet 已经与这类消费性电子装置品牌大厂谈合作,从辅听器领域开始布局。

同一时间,RelaJet 也持续接洽全球六大助听器品牌商。一旦非处方助听器上路后,从消费性电子装置到助听器的品牌商,都会加入抢食这块大饼。而 RelaJet 便要抓住这一趋势,以多人声分离引擎这套解决方案占得先机。

▲ 为抢攻 2020 年的非处方助听器市场,Relajet 已先与两大潜在参与者洽谈授权,并于辅听器市场先行验证。(图片来源:RelaJet)

陈柏儒说,除了导入辅听器及非处方助听器,未来多人声分离引擎也能应用到所有需要语音辨识的产品上,像是智慧音箱、车用系统等,走入一般消费市场。RelaJet 主要负责抓取声音特征值的前端处理,就如同声音的入口,做到 Voice as a Service,商业模式会类似杜比音效那样,将技术授权给产品使用,以获得特定功能。

完整规划产品时程,前进 CES 接轨欧美市场

2018 年三月才成立的 RelaJet,已经与美国的语音处理芯片商合作;此外,若是有厂商需要导入他们的引擎,他们也提供 NRE(Non-recurring engineering,一次性工程费用)与授权的服务,将产品赋予功能。目前主攻医疗与具备辅听功能的耳机,所有客户的产品都已进入设计阶段,短期目标是在 2019 年第一季就要有客户产品正式导入 RelaJet 的技术,并在 2020 年就把所有非处方助听器的解决方案与引擎调校完毕。

而中期目标,则是与全球的语音数据库进行整合。由于不同的语系,声音模型会有微妙差异,AI 算法需要根据不同语系调整,加上六大助听器品牌商在欧美就有 95% 市占率,因此 RelaJet 的技术还是会先聚焦欧美语系。随着非处方助听器解禁,带来了全新、具有潜力的市场,2020 年将多人声分离引擎导入六大品牌商的非处方助听器产品中势在必得。

透过这次由台湾科技部 Tawian Tech Arena 带领新创团队参加 CES 2019 的机会,陈柏儒也希望多接触美国本土的助听器品牌商,以及硅谷的语音处理技术商,接洽成为战略合作伙伴。

(首图来源:科技新报。首图图说:RelaJet 首席执行官陈柏儒本身的专长是系统架构,团队成员包含算法工程师、半导体厂员工及台大电机研究所研究生等等。)

2019-03-10 19:31:00

标签:   游戏头条 资讯头条 ggamen科技资讯 ggamen科技 ggamen科技资讯头条 科技资讯头条 ggamen游戏财经 新闻网 科技新闻网 科技新闻 ggamen ggamen游戏新闻网 科技新闻 科技新闻网 新闻网 ggamen游戏财经 ggamen科技资讯头条 ggamen科技资讯 资讯头条 游戏头条 ggamen ggamen游戏新闻网 科技新闻 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技资讯头条 ggamen科技 资讯头条 游戏头条
0