随着一大波公司涌入 AI 医疗领域,一股现代淘金风潮再度掀起。
但由于高风险性,FDA 将监管这些软件。在美国,虽然“21 世纪治疗方案”已撤销对部分 CDS 的监管(ClinicalDecisionSupport,临床决策支援),并表示还会撤销更多专案的监管,但确信的是,FDA 会继续监管高风险的 CDS。问题的关键在于:FDA 该如何监管集成机器学习技术的高风险 CDS?
一些人称医疗领域的机器学习应用太新,不知道 FDA 将有何反应,但事实并非如此,FDA 已有数十年的机器学习监管经验了,且幸运的是,这能给我们一些有用的帮助:当这种技术大幅扩张时,FDA 会有何反应?
FDA 对机器学习技术的监管实践
1998 年开始,FDA 放射健康部门已开始监管电脑辅助辨识系统,在大多数情况下,这些软件利用复杂的算法找出医学影像的病灶区。最初,这认定为三级装置──这意味着最高风险等级和最大监管力度,后来,FDA 又评定为二级,即认定风险等级适中。这些软件出售给临床影像医生使用,指导医生看片,但医生无法完全依靠这些软件。在理论上,这些软件风险为零,但 FDA 怀疑影像医生将完全依靠系统检查,对风险警告置若罔闻。
2012 年,FDA 发表一连串指导档案,涵盖了与这类软件有关的所有规定。在这些档案中,FDA 重申之前法规明确说明的内容:按软件的临床应用分类将有效提升监管水准。FDA 区分 CADe 和 CADx,前者仅标出病灶,后者会进一步给予疾病诊断和分类。很明显,CADx 的风险等级更高,因为需要更严格监管,通常认定为三级。
但 FDA 对 CADx 的态度也在与时俱进。就在 2017 年 7 月,FDA 决定将辨识癌症病变的 CADx 降为二级,FDA 的此举强调“电脑辅助医疗影像可疑癌症病变辨识”,这种软件基于从医疗影像撷取的资讯或特征,辨识病变,并且提供病变资讯。将其评定为二级软件是一个“大跨步”,促进了这种软件的发展。因为三类产品的制造商必须提交一大叠上市前批准申请,并进行大范围的临床试验;而二级产品制造商仅需要阐明产品基本上与市面已有的产品相同(可能也需要临床试验,但无论临床设计或实验范围,都更适中)。
对集成机器学习算法的影像分析软件,FDA 已有一套相对成熟的临床试验监管办法。研究人员可建立一套医学影像资料集,其中包含已确诊的正常人和患者影像,申请者可设计临床试验对比,有无软件帮助的情况下每组最终的诊断效果。当然,还有其他可能的临床设计,这取决于申请者需要证明的假设是什么。
除此之外,FDA 有一套相对明确的审查指标来审查集成机器学习算法的软件。在 2012 年的指导性档案中,FDA 列出这些指标,比如算法设计、特征、模型、用于训练和测试算法的资料集,以及使用的测试资料“卫生程度”。后者非常重要,因为有些申请者没有基于测试集选择分类 ,显然这不被允许。FDA 想知道公司如何抓取资料,以保证反应真实情况。
FDA 判断公司试验用的统计方案和研究假设是否合适有丰富的经验,以他们的经验来看,许多申请者的研究包含多个假设,这可能影响后续资料分析、统计方案等,总而言之,FDA 最重要的目标之一是确保产品设计和临床验证能反映预期用途。
FDA 已收到一些申请,其中明确声明系统有机器学习算法──FDA 称为“适应性系统”,随着之后进入市场,使用过程搜集更多新证据,这样的系统会不断进化。事实上,开发一套适应性系统是大多数开发者的终极目标,但这给 FDA 造成一定的挑战,因为现有的法规是:医疗装置一旦有改动,必须重新取得批准。如果这个装置自行进化,到哪个时间点需要重新批准呢?同样,FDA 必须决定什么程度的改变需要重新验证。至少在某些情况下,简单的确定软件参数以控制软件远远不够。
除此之外,还有许多其他悬而未决的问题,比如软件开发商是否能重新使用测试资料集;训练或测试的资料量如何确定。FDA 很可能要求开发在数据集汇总加入声音噪声,以确保验证软件的变化。
这些大都是医疗影像软件领域的事,FDA 也开始插手其他机器学习技术在其他医疗软件领域应用,他们已收到大量其他领域的批准申请,比如分析实验结果;关键生命体征的远端监控及脑波图等讯号领域。FDA 装置中心其他部门也面临机器学习相关问题,很有可能咨询放射健康部门的同事。
基于 FDA 的经验,可以推断出至少 4 点:
- 公司不得不长期布局,并且着重考虑系统的预期临床用途。除为医生解释具体疾病,提供要点参照和特定的低风险特征外,任何其他事都可能提升监管力度。
- 分类会是个大问题。FDA 可能会考虑到机器学习的特定用途,将其视为一项全新技术,因此规定全新的分类规则。如果是这样,将此类产品带入市场的第一家公司或以三类装置的标准申请批准,或透过将产品风险重新分类以寻求产品分类标准降级。但这并非意味着前途黯淡和厄运连连,我们知道,FDA 会灵活应对。许多例子中,FDA 允许现有的产品集成机器学习技术,并以二类装置的标准批准。
- 如果产品无法构建一个令人信服的验证标准,那么研究设计可能会很复杂。在放射科大多数案例中,透过活检和其他诊断过程,我们能建立一个客观性的标准。其他领域的智慧化需要更有创造性的临床试验设计。
- 应用机器学习技术到放射科过程中,FDA 已意识到所有技术性问题将转化成其他形式的机器学习问题。FDA 官员很可能求助于放射健康部门的官员咨询机器学习问题,这尤其适用与自动适应系统有关的其他更具挑战的监管问题。
好消息是,FDA 似乎很关注机器学习的价值及这项技术如何变革医疗界,所以大多数情况下,他们可能对该技术的缺陷抱持理解,并不想不合时宜地一律阻止。此外,近期 FDA 释出软件监管的一系列改善性措施,这可能对正在开发的机器学习产品有益。例如,FDA 似乎有意让产品上市前批准更容易些,与此同时, 对上市后制造商搜集大范围应用的证据要求提高。无论如何,FDA 对临床和严谨性的担心必须要用恰当的证据来应用。
结论
FDA 一直在研究机器学习技术,了解越来越多,但从实做层面来讲,FDA 很难招募并留住机器学习专家,因为他们在一般公司赚得更多。
FDA 的医学影像、诊断等部门已在研究电脑辅助诊断技术了,有一天,可能会公布一些模拟、分析工具和有价值的资料,这将加速医疗软件的发展。同时,透过研究机器学习先驱者二十多年的路,后来者或许能找到推广新技术的最佳方法。
- Learning from Experience: FDA’s Treatment of Machine Learning
(本文由 雷锋网 授权转载;作者 Bradley Merrill Thompson,隶属于 Epstein Becker & Green, P.C. 公司,负责医疗器械、药品等的临床试验审批、FDA 法规咨询等事项;首图来源:Flickr/The U.S. Food and Drug Administration CC BY 2.0)