生活大多数层面都涉及与他人沟通,以及被他人理解。许多人将这视为理所当然,但如果试着想像旁人难以理解我们的说话或表达方式时,这肯定令我们极度不便和沮丧。然而,对数百万中风、肌萎缩性脊髓侧索硬化症(ALS,Amyotrophic Lateral Sclerosis)、多发性硬化、创伤性脑损伤和帕金森氏症等神经系统疾病而产生语言障碍的人士来说,这是他们每天都必须面对的情况。
为了协助克服这个问题,Google AI for Social Good 的 Project Euphonia 团队试着透过 AI 提高电脑理解各种说话型态的能力,像是较不完整的语句。Google 与非营利组织 ALS-TDI(美国 ALS 研究机构)与 ALS Residence Initiative(ALS 住宅计划)合作,录下 ALS 患者的声音;ALS 是一种神经退化疾病,会导致患者失去声音与其他随意肌的功能。在和这些组织密切合作的过程中,试着了解 ALS 患者的沟通需求,并致力于最佳化 AI 模型,以便让手机和电脑更准确辨识与转录这类患者说出的语句。想了解更多关于与 ALS-TDI 的合作详情,欢迎参考 Clinical Operations 资深总经理 Maeve McNally 与 ALS TDI 首席科学家 Fernando Vieira 分享的部落格文章。
▲ 请受试者朗读的语句范例。(Source:Google)
为了达成这个目标,透过 Google 软件将录下的语音转成声谱图,或以更视觉化的图像方式来呈现声音。接着电脑会用这些经过正确转录的声谱图拿来“训练”系统,以更准确辨识这类非典型的语音。模型设计目前是以具典型 ALS 相关障碍的英语人士为目标对象,但相信这项研究将可应用到更大范围的族群与不同的语言障碍。
除了提升语音辨识能力,也会训练可侦测声音或手势的个人化模型,且这类模型还可采取相关行动,例如对 Google Home 下达语音指令或传送简讯。这类模型对患有严重残疾且无法说话的人士来说特别有帮助。
以下影片主角是 Dimitri Kanevsky,年幼失聪后才开始学英文,目前是 Google 的语音研究员。Dimitri 使用的是即时转录应用程序,并配备自订语音辨识模型,专门用来辨识他的声音。另一个主角 Steve Saling 在 13 年前确诊为 ALS,他在影片中不出声即可操作 Google Home,并在运动赛事时透过脸部表情引导机器发出欢呼声。
Google 非常期待看到这个研究带来的影响,同时也需要大众的协助。Google 之所以能透过 AI 工具提升语音辨识的效果,都要靠庞大的语音样本训练模型。如果读者或亲朋好友有上述提到因特殊疾病而说话含糊不清、或让旁人难以理解的问题,可填写这份简短的表单,即可自愿为 Google 讲出并录制多组词语。除此之外,也非常欢迎读者向 Google 在这项专案合作的非营利组织捐款或担任志工:ALS-TDI 与 ALS residence initiative。模型听过的语音样本愈多,就愈有机会取得进展,并且将这些工具应用在透过各种方式沟通的使用者身上。
不需要说话或听到声音,也可用电话沟通
去年,Google 软件工程师、Live Relay 开发人员 Sapir Caduri 读到一篇以色列年轻女性在社群媒体发表的文章,是关于那位女性曾交往的听障男友,设法修复家中网络连线的故事。即使网络服务供应商的技术支援人员知道对方是听障人士,却仍然无法透过文字、电子邮件或即时通讯与男友沟通。这名女性提到,这件事让男友深切感到,能独立自主且有足够能力处理这些事的重要性。
这篇文章让 Sapir Caduri 开始思考:如何协助人们在不需实际交谈的情况下接听电话?这个想法催生了研究专案:Live Relay。
Live Relay 使用装置的语音辨识和文字转语音功能,让使用者能一边输入文字,一边让手机代替使用者与对方交谈。借由提供即时回复与预测性的文字输入建议,Smart Reply 与 Smart Compose 协助让使用者输入文字的速度能快到让对话进行的速度比拟一般讲电话。
Live Relay 完全在装置执行,因此可确保通话的隐私性。由于 Live Relay 可让使用者在电话拨出的语音通话中与另一端的通话者互动,不需行动数据,因此即使另一方以市话来电也可进行。
Live Relay 能在通话中协助无法说话或有听力障碍的人士,并当作现有听障人士服务方案的补充服务,特别是帮助听障使用者。举例来说,美国境内就为听障人士提供无障碍和即时文字转译(RTT)服务。这类服务在某些情况下有优势,Google 的目标也并非取代这些系统,而是将 Live Relay 当作额外搭配的选用方案,在适当情况下尽可能提供协助,例如接听来电,或是当使用者因隐私考量,希望能使用全自动系统时。
Google 对 Live Relay 的长期发展十分乐观,相信全体使用者都能因这项服务受惠。相信许多使用者都曾有需要接听重要电话,但无法离开当下手边进行事项的经验。在 Live Relay 的帮助下,使用者不必实际与对方交谈,也能随时随地透过输入文字的方式接听电话,甚至可整合即时翻译功能,让使用者能与世界各地的人通话,完全不必担心语言隔阂。这一切可能性都源自无障碍功能的设计初衷。
Live Relay 目前仍处于研究阶段,但 Google 希望这项服务有朝一日能为使用者提供更多元且优质的沟通方式,对服务资源较为不足的身心障碍人士而言更是如此。
(首图来源:影片截图)
延伸阅读:
- Google 两款 App 造福听障,台湾工程师扮推手
- Google 搜寻加入 AR 功能,让搜寻结果浮现你眼前
- Google 推出中阶新机 Pixel 3a / 3a XL,台湾仍列首发名单、即日起线上开卖
- Google 揭晓 Android Q 功能重点,折叠手机、5G 纳入考量并加强隐私
- Google I/O 2019 大会 6 大关注重点,Android Q、Pixel 新机受瞩目