一直以来,许多肿瘤的分类诊断一定要仰赖专业病理学家在显微镜下耗时仔细观察来完成,而今日,一项结合训练机器学习的重大突破,让这项重要工作能缩短至数秒内完成。
近期发表于《Nature Medicine》期刊的一项最新研究,美国纽约大学(New York University)研究团队重新训练现成的 Google 深度学习(deep learning)算法(algorithm),辨识两种最常见的肺癌类型──肺腺癌(adenocarcinoma)和鳞状细胞癌(squamous cell carcinoma),辨识准确度可达 97%。团队使用的这项人工智能科技,与上传至 Google 线上服务的图片库以辨识图片中的面孔、动物和物体技术相同,过去 Google 这项科技也曾应用在疾病诊断,包括糖尿病引发之失明和心脏疾病。而这次,纽约大学的神经网络(neural network)开发出一项病理学家从未尝试过的诊断分析方式──借由肿瘤影像照片辨识基因突变。
“我认为此项新发现不仅展示出 AI 相当于人的表现,而是 AI 能更进一步提供人类专家无法提供的洞察力(insights)。”纽约大学医学院的病理学家,同时也是此篇研究的主要作者 Aristotelis Tsirigos 说。
Tsirigos 团队利用 Google Inception v3──Google 训练辨识一千种不同种类物体的开源(open-source)算法。为了训练这个算法区分出恶性和健康的组织图像,研究团队利用病患组织检体公共数据库成千上万的癌症基因体图谱(The Cancer Genome Atlas,TCGA)影像。首先,团队成功训练 Inception 达到 99% 准确度辨识恶性细胞的能力,接下来,再训练 Inception 辨识肺腺癌和鳞状细胞癌这两种不同类型的肺癌,这是当今最普遍的两种肺癌类型,每年于美国夺走将近 15 万人生命。尽管这两种肺癌的肿瘤组织细胞在显微镜下成像十分相似,治疗却相当不同,正确的治疗对病患的生死存亡来说有十分重要的影响。
临床检测的算法最重要的应是可靠性
接着,团队使用不同数据库(纽约大学医院的癌症病患)检体资料来检测 Inception 的分析能力,虽然结果显示准确度下降一些,但依然能正确诊断影像(准确度介于 83%~97%)。Tsirigos 表示,他们对这样的结果并不讶异,因为研究团队已预期来自医院的检体会有较多“噪声”(noise),如炎症反应(inflammation)、死亡组织和白血球等等,且这些检体处理过程也与冷冻癌症基因图谱(TCGA)检体不同,而改善准确度仅需透过病理学家进一步注解切片的特征,算法就能很快习得、分辨。
实际上,Inception 可辨识组织切片基因突变的这项能力,并不是人为教授而来,而是算法自我习得。Tsirigos 团队提供 Inception 的资讯为 TCGA 数据库每个肿瘤的基因档案和切片影像,Inception 借此建立分析演算,当团队以其他新影像测试时,Inception 不仅能辨识包含恶性组织的图片,还能够侦测该组织检体的基因突变,此神经网络能发现肿瘤检体外观极细微的改变,这甚至是组织病理学家未能以肉眼看见的。“这些肿瘤驱使的突变,似乎有一种算法可侦测到的显微作用。我们现在还不知道这些细微的改变为何,但它们就隐藏于算法中,没人知道如何撷取出来。”
这就是深度学习的黑箱(black box)问题,有人争议,这些算法在广泛应用之前必须完全透明化,不然该如何掌握失误的可能性,尤其是攸关病患生死的应用。康乃尔大学精准医学教授 Olivier Elemento 表示,当一项临床检测可达 99% 的准确性而不加以利用,是件愚蠢的事。“坦白说,像这样应用到临床检测的算法,全面解读的功能并非必要,最重要的应是可靠性。”但近乎百分百的可靠度并非易事,不同医院处理肿瘤检体的工具和流程皆不同,训练一种算法应用所有不同情况会相当困难。
但这正是 Tsirigos 研究团队计划达成的目标,接下来几个月,他们会继续以更多不同来源的资料训练 AI,若发展顺利,他们会考虑成立公司并向美国 FDA 提出申请。由于时间和成本考量,目前在美国,肿瘤检体的序列分析并非标准照护的流程,但试想,若能透过寄送肿瘤检体的数位影像,立即取得诊断结果和治疗选择,这将为病患和医护人员省下许多时间和人力。
“最大的问题是,这项分析方式是否够可靠到取代现行的操作方式?”史丹佛癌症研究机构(Stanford Cancer Institute)生物资讯主任 Daniel Rubin 说。预期未来还需要很多验证确效的工作,但这项发现的确指出一个重要的方向,就是未来病理学家与电脑功能整合的可能性,“这项发表真正展示的是,影像中可被撷取的资讯远超过人类直接自行解读的部分。”
这正是数位病理学更进阶的主题,有了 Google 和其他公司开发、开放源码的算法,研究团队现在可更容易开创自己的 AI,仅需稍微客制化,就能分析成千上万的生物医学影像数据,不限于肿瘤影像。
Tsirigos 接受访问时,被问到会不会很难找到自愿的病理学家帮忙训练他们的癌症分类系统,他笑着说,一开始他们都不敢请 NYU 同事加入研究,因为这就像在帮忙制造未来的竞争者,但最后却出乎预料进行得相当顺利,因为大家都很好奇 Inception 能做到什么程度,并不只在肺癌应用,也包括他们自身的研究。Tsirigos 说,大家并没有担心自己的工作会被取代,反而很高兴能回答比机器更深入的问题,“就让机器帮我们做到辨识部分,剩下还有很多医疗工作要靠人类来完成。”
- Google AI Tool Identifies a Tumor’s Mutations From an Image
- Classification and mutation prediction from non–small cell lung cancer histopathology images using deep learning
(首图为 AI 辨识的肺癌肿类,红色为鳞状细胞癌,蓝色为肺鳞状细胞癌,灰色为正常肺组织。来源:纽约大学)