近来人工智能、机器学习与深度学习等技术,在影像处理与语音处理上,已经展现出远比传统方法优秀的效能。而在各种公开教育训练资源中,日常生活的影像辨识(例如辨识手写数字、门牌号码等),也已经成为学习这项领域技术的常见材料。
但是如何将深度学习技术使用到目前科技难以解决的问题,尤其是医疗上,帮助我们改善医疗品质与效果?在这个大方向上,世界各国的科学家与工程师持续积极地与临床医学从业人员合作中。
就在最近,位于美国麻省总医院的科学家发表了一份使用深度学习来进行医学影像重建的研究。这项研究的特色在于,在没有给予明确物理模型的情况之下,电脑也可以经由大量的学习,将各种侦测器所收到的资料重建出影像来。
以电脑断层为例,传统方法是如何重建出横断人体的影像呢?在收到 X 光的资料后,我们必须有一个明确的物理模型,来描述侦测器收到的资料与影像之间的关系:我们所收到的 X 光讯号,会被任何位于从 X 光发射器到接受器的直线路径上的物质阻碍而衰减。而各种物质的密度、大小与位置,都会改变信号的衰减程度。基于这个物理模型,加上电脑断层系统的描述(例如 X 光发射器与接收器的位置),我们就可以利用数学工具“解出”人体的断层影像。
上述的例子也可推广到其他的种类的医学影像上,像是核磁共振影像(magnetic resonance imaging,MRI)的影像重建,也需要知道人体各个部分是如何产生不同的核磁共振信号(信号的大小与随时间衰减的快慢)。在结合 MRI 系统的成像参数后,我们才能建立一套明确的物理模型,将影像重建出来。
▲ 要先得知人体各个部分是如何产生不同的核磁共振信号,结合 MRI 系统的成像参数后,我们才能建立一套明确的物理模型并将影像重建。(Source:Flickr/Gerwin Sturm CC BY 2.0)
如此看来,要重建出各种不同的医学影像,需要有各类医学影像相关的物理模型描述,而更重要的是,各个物理模型在描述真实世界收到的资料会有所偏差。例如,完美的物理模型知识并没有考虑到在收集资料时不可避免的噪声影像。更甚者,我们对于医学影像系统的描述常常都会有各种因为工程技术限制所产生误差。而这些误差在多半的情况下我们并不清楚他们的大小为何,所以也没有办法提供一个完美的物理模型来描述资料。
但这个限制可以借由此研究所提出的方法加以克服。这群科学家利用深度学习的架构:包含前三层完全连结的神经网络,,以及后面三层比较小范围的卷积神经网络,就可以重建出影像出来。这项技术其中一个有趣的地方在于,由信号侦测器资料到成像的过程当中,完全不需告知资料该如何转变成影像,电脑就可以经由大量资料的学习自动找到这个转变过程。例如在本研究的例子中,科学家尝试重建核磁共振影像,但以往我们必须明确告知 MRI 的感测器资料与影像间存在傅立叶变换(Fourier transform)关系,才能完成影像重建。如今在新的架构下,傅立叶变换关系可以自动由资料学习而来。
采用这项技术进行影像重建的另一个好处在于:重建出的影像对于个中误差与噪声的容忍度比过往的技术都来得高。此外,当我们观察训练好的神经网络,能发现神经网络在进行影像重建时,较后端神经网络的活化现象会以比较稀疏的方式来作用。这项稀疏特性也是由资料学习的过程自动习得,而不是外加强制发生的(例如使用压缩感知技术 compressed sensing 就会强调稀疏性的重要,使得感测器到成像的转换过程必然有稀疏性的存在)。稀疏性的神经网络活动在科学家的观点中,也代表学习的成果能比较有效率地以少量资料来完成工作。
这项论文展示了由各种不同的核磁共振成像法取得的资料,都可以被同一个训练好的神经网络重建出来。重建的影像也比传统的方式来的精确(误差更小)。即使核磁共振影像系统有所误差,还是可以获得比传统方式更高品质的影像。
除了核磁共振影像之外,论文也展示了这个深度学习架构可以重建正子断层扫描影像。再度说明在不需要明确描述物理模型的情况下,也可顺利完成影像重建。在可预期的未来,此项技术将可望进一步应用在其他的医学影像(例如低强度电脑断层、光学同调影像等),帮助我们在高噪声的状况下获得好的医学影像,提供医疗人员进行更有效精准的诊断与治疗。
(作者:林发暄博士,台湾大学医学工程学研究所教授;首图来源:shutterstock)
延伸阅读:
- fMRI 漏洞让人看不清真相?在台湾,更缺的是纵观全局的视野
- 对 fMRI 研究风波的省思