人工智能崛起强化语音辨识能力,促使语音成为重要人机界面,应用层面从手机拓展到智慧音箱、电视与车用等终端产品,进而带动市场对 MEMS 麦克风需求。但不同类型终端产品需要的麦克风阵列不尽相同,各厂商相继推出麦克风阵列解决方案,也成为厂商竞争的一大利器。
语音应用推升 MEMS 麦克风需求,产值达 15 亿美元
语音控制一直被视为最直觉的操控方式,早在 2011 年苹果便推出手机语音助理 Siri,但由于当时语音辨识不成熟,导致语音助理成为手机娱乐产品。随着人工智能兴起,各厂商透过自然语言处理(Natural Language Processing)训练电脑人类语言逻辑,提升语音辨识能力,加上亚马逊、Google、阿里巴巴与小米等厂商透过低价智慧音箱打入市场,让消费者快速了解语音的应用范畴,包含资讯询问、家电控制与购物等,大幅扩增语音应用的可能性,促使语音成为新人机界面。
随着语音应用兴起,各厂商希望将新人机界面放到自家终端产品,因此推升麦克风需求,其中又以半导体制程 MEMS 麦克风需求成长最高。MEMS 麦克风具备较高可靠性、稳定性与一致性,声音采集品质佳,对语音辨识有很大帮助,进而提升市场对 MEMS 麦克风需求。
因为各类型产品的外型、应用环境与使用方式不同,所以使用的麦克风数量和阵列模型也有差异,从麦克风使用数量来看,手机 MEMS 麦克风需求为 2~4 颗;智慧音箱需求范围较广,依照产品设计和价格定位,MEMS 麦克风需求 2~8 颗不等。
由于智慧音箱市场在 2017 年快速成长,推升整体 MEMS 麦克风产值达 13.81 亿美元;随着 2018 年 MEMS 麦克风进一步拓展到电视和穿戴装置,推升产值年增 11% 至 15 亿美元。
汽车是语音应用的另一大市场,透过语音控制能让驾驶人在不移转视线情况下直觉性操控,提升行车安全,因此车厂也开始导入语音控制系统,MEMS 麦克风数量 2~6 颗不等,甚至采用更多颗麦克风抑制噪音,有望带动另一波 MEMS 麦克风需求。
MEMS 麦克风阵列型态与对应产品
MEMS 麦克风阵列随着语音互动系统需求增加而开始受到重视,语音互动存在的环境相当复杂,若使用时相隔距离较远,收音就会遇到回声干扰、室内混响与多信号源干扰等问题,导致讯噪比(Signal to Noise Ratio,SNR)降低,影响语音辨识率。
过去智能手机大多采用单麦克风系统,能在低噪音、无混响与近距离下,获取讯号品质较高的声音信号。但当环境中存在多个声源和环境噪音,例如客厅、厨房与户外等场域,就无法做到声源分离,进而无法对声源定位和辨识。为了实现远距离语音辨识,多麦克风系统应运而生,透过几何结构组合成线型、环型与球型等阵列,数量从 2~1,000 颗不等,目的是为了采集不同空间方向的声音讯号,进行噪声抑制、混响去除与人声干扰抑制后,方能做到声源侧向,再透过波束成形(Beamforming)做声音定位。
近年随着语音辨识能力提高,加上厂商希望缩小产品设计并降低成本,因此开始减少 MEMS 麦克风使用量,一般消费性产品采用的 MEMS 麦克风阵列型态以线型和环型为主。但线性麦克风阵列仍旧有其限制,仅能做到 180 度声源定位,无法针对全方位做空间指向性,像亚马逊第三代 Echo Dot 就采用 4 颗麦克风,虽较前一代减少 3 颗,但仍采用环型阵列。
1. 线型 MEMS 麦克风阵列:宽边阵列
电视和 NB 等产品适合采用线性麦克风阵列中的宽边阵列,宽边阵列是指声波方向和麦克风阵列垂直,透过声波相加得出声源方位,且抑制来自阵列侧边的声音,使得前方和后方的响应一致,但该阵列具有轴对称性,无法分辨出前方和后方声源,因此适合声音仅来自前方或后方的产品,透过增加横向 MEMS 麦克风数量则能更有效抑制侧边声音,借此增加声源定位距离,不过 MEMS 麦克风间若间距过窄,会降低低频衰减,增加低频噪音干扰,但过宽又会造成机构设计困难,降低混叠频率,因此在产品设计需特别衡量横向麦克风数量与其距离的安排。
以电视为例,摆放空间大多在较空旷的客厅,且人往往距离电视较远,因此电视需搭载远场语音辨识让用户控制,要强化远场语音辨识的能力和距离,需要将数个 MEMS 麦克风排列成宽边阵列,除了可抑制电视两侧扬声器所制造的噪音外,也能增强声源定位距离,但远距离容易造成声音在室内不断反射,导致麦克风不断收到重复讯号,造成辨识困难。
2. 线型 MEMS 麦克风阵列:端射阵列
针对单方向做声音侦测的产品,例如手机、耳机、助听器、智慧手环与智慧手表等产品,就适合采用线性麦克风阵列中的端射阵列。端射阵列是指声波方向与麦克风阵列平行,当前方比后方先接收到声波时,就能透过麦克风拾取声波的时间差得知声波来源,透过讯号处理抑制其他方向的声音干扰,形成空间指向性。
以穿戴装置为例,由于产品体积较小,难以透过多个麦克风做横向排列抑制周遭噪音,加上消费者使用穿戴装置做语音控制时,往往会靠近嘴巴,代表定向声源只有一个方向,而需抑制的噪音源同样是来自嘴巴,并非声源的反方向,因此透过端射阵列设计,能专注收取单一方向的声音。
3. 环型 MEMS 麦克风阵列
环型 MEMS 麦克阵列是端射阵列的延伸应用,适用于需要针对全方位做声源定位和辨识的产品,设计上各 MEMS 麦克风需要等距且均匀分布于圆周,且对角排列形成多个端射阵列,以利针对不同角度的声源做降噪、侧向与定位。目前运用最广的语音辨识产品智慧音箱,即是使用环型 MEMS 麦克风阵列。
由于智慧音箱使用不具方向性,多摆设在客厅、厨房与卧房等区域,因此会受环境多样性使噪声干扰方式不同,例如在客厅会收到多信号源干扰,在厨房则有诸多环境音干扰,卧房则可能透过智慧音箱播放音乐,导致噪音出现,加上用户声音可能来自四面八方,因此需透过环型阵列做波束成形的指向性收音和降噪,提高语音辨识率。
MEMS 麦克风阵列市场发展
随着语音应用兴起,MEMS 麦克风阵列成为语音交互系统中第一道关卡,若 MEMS 麦克风阵列收音状况不佳,将严重影响语音辨识率,因此 MEMS 麦克风阵列解决方案成为各厂商重点角逐市场。当前全球最大 MEMS 麦克风厂商为 Knowles,市占率超过三成,同时也掌握 MEMS Die 设计、MEMS 麦克风封测与 MEMS 麦克风阵列模组,因此受亚马逊青睐。
▲ MEMS 麦克风供应链。(Source:拓墣产业研究院,2019.1)
不过,并非所有厂商都有一条龙生产模式,多数厂商涵盖设计到封测,或封测到系统整合厂部分,最后再由系统整合厂将 MEMS 麦克风模组或阵列出货给品牌厂商。像是 STMicroelectronics 只提供 MEMS Die 设计到 MEMS 麦克风封测,原因在于 MEMS 麦克风供应链呈现金字塔状,若 STMicroelectronics 跨足 MEMS 麦克风阵列模组,将会与原先的合作厂商竞争,因此若厂商无法在 MEMS 麦克风阵列模组市场占领先地位,则不必冒着失去客户风险切入市场;此外,语音厂商也开始进入 MEMS 麦克风阵列模组市场,将使竞争更加激烈。
歌尔和瑞声不具备 MEMS Die 设计能力,仅提供封测到系统整合,为各类型产品提供不同解决方案,包含手机、穿戴装置与智慧音箱等,但随着语音厂商开始切入 MEMS 麦克风阵列模组市场,该市场竞争更加激烈,因此模组厂商开始向上游发展,像是瑞声开始研发数位 ASIC 芯片,不仅优化自身 MEMS 麦克风模组,同时也能增加产品毛利。
歌尔则透过封装方式将多个感测器整合,使得单一元件拥有多种功能,减少基板使用面积而具有成本优势。此外,部分声学厂商同时提供代工服务,例如歌尔、共达电声、奋达科技与美律等厂商皆提供智慧音箱和耳机等产品代工,其优势在于声学相关产品的机构设计是声学厂商强项,且能直接提供声学模组给品牌厂商,因此受到品牌厂商青睐。
近期语音厂商开始朝麦克风阵列模组发展,原因在于语音厂商希望达到最佳语音辨识率,若采取非官方认证的麦克风阵列,语音辨识可能会出现误差,导致消费者体验不佳,因此为了让实际收音和训练样本一致,语音厂商开始推出麦克风阵列解决方案,像是亚马逊、科大讯飞与阿里巴巴等厂商都提供相关解决方案;此外,语音厂商可以透过麦克风阵列模组进行语音资料搜集,以优化自家语音辨识,同时也能扩大自家生态圈,从而拓展到更多产品,可谓一举数得。
语音厂商的跨入导致下游 MEMS 麦克风阵列模组市场开始出现变化,语音厂商透过软硬整合方式吸引厂商采用,采用厂商则能直接进入语音厂商的生态圈中,这对硬件开发商而言有相当强的吸引力。面对语音厂商的挤压,原先的麦克风阵列模组厂商开始朝上游或代工发展,借此强化自身产品竞争力,否则只能转向中低阶市场,最终面临被市场边缘化的风险。
(首图来源:shutterstock)