美国CBS晚间新闻日前报导了一名叫做Brittany Wenger的高中毕业生,将就读杜克大学。她很了不起吗?你听听看:这个美少女在国一时就写了计算机程序去模拟人类在踢足球时的大脑决策过程;她高中三年开发一套人工神经网络针对乳房硬块是良性或恶性进行检测,准确率高达97.4%,不仅成为2012年Google Science Fair首奖得主,2013年九月还将与诺贝尔奖得主、权威科学杂志编辑、太空人、探险家等各领域专家从15组入围者中共同评选出新一届的优胜团队。
换句话说,我们之前报导过的“15岁小女孩发明手电筒,只靠体温就能亮”、“好友母亲骤逝,17岁少女开发黑色素瘤早期诊断工具,准确率80%”、“华裔高中生跨领域筛出可能的抗流感化合物,阻断病毒蛋白质合成”等今年Google Science Fair入围者,将是在Brittany Wenger等人手中评选出最后的优胜者。Google Science Fair展现出的年轻活力真是令人感到热血沸腾,而Brittany Wenger的 “全球神经网络云端服务乳癌侦测功能”(The Global Neural Network Cloud Service for Breast Cancer)可不是什么三脚猫功夫,对于乳癌早期检测,尤其是对于恶性肿块99.1%的高敏感度,让因为“伪阴性”(注1)误诊造成的遗憾有了补救的途径。
体会人生痛苦,热情学习寻找癌症疗法
Wenger说自己是个从小就爱问“为什么”的人,问问题让她进入科学的领域,虽然她找到了答案,但问的问题更多了。表姐罹患癌症让她体验到了这种疾病带来的痛苦,在乔治城儿童癌症病房亲身感受到的烦闷煎熬也不好受,因此,协助找出癌症的疗法是她的目标之一,她决心尽可能学习资讯科学与医学两个领域的知识,在高中时期她就已经修完学校提供的相关学程,包括从原有的C#语言跨入Java的领域,未来进了大学她会想主修电脑,兼修医学院课程。
Wenger表示,多少女人发现乳房有硬块时,不会想立刻又准确地知道它是良性还是恶性?人工神经网络有没有办法更精确地判断透过细针穿刺细胞(Fine Needle Aspiration, FNA)采集来的样本?更重要的是,神经网络能否降低“伪阴性”诊断的错误?最后,这套检测工具能否透过云端给全世界使用?
▲良性(上图)与恶性(下图)
具学习能力的神经网络,准确率达97.4%
使用人工神经网络与云端技术协助进行医疗诊断,可以帮助医师面对一些用人工方法来说过于复杂的过程,做出高准确性与可信赖的检测结果,效率也能提升。透过FNA得到的资料,究竟该如何判定乳房硬块是良性的或恶性的?Wenger的研究便是透过设计一套人工神经网络,试图找到最佳的检测结果。
她的研究用样本来自美国威斯康辛大学自1990年代初便开始收集的资料,首先采用三个既有的商用神经网络做为控制组,从样本的肿瘤厚度、单一上皮细胞大小、原子核裸露程度、有丝分裂程度等共九种指标进行分析。至于她自己设计的神经网络则特别着重于避免对恶性肿块的“伪阴性”诊断,以及针对商用网络未有定论样本的进一步分析。此外,为了接纳更多样本以改进网络的功能,Wenger把这套网络挂在Google应用服务引擎下,也欢迎大家提供更多FNA的资料。
总共四套神经网络各针对680个样本进行6800次检测训练工作,而Wenger设计的神经网络预测成功率为97.4%,对恶性肿块的灵敏度达到99.1%,比商用神经网络要高出5%。她表示这套神经网络或许已经可以诊断真实的案例,但还是需要来自全球各地的重复确认,而且实验证实愈多样本训练这套网络,愈能提高它的准确率,因此可以进行盲样测试(注2)以进一步提高预测成功率。
▲样本数达到300后,准确率便开始缓步上升。
男人在车库,女人在卧室
“我在卧室做了两年半的研究,然后把它拿去Google Science Fair,最后得了首奖,这实在是太疯狂了。”她因此获得一趟搭乘“国家地理奋进号”前往加拉巴哥群岛的探险之旅,那里是达尔文进化论的研究发源地;可选择参观欧洲核子研究组织(CERN)、Google或乐高(都是比赛的赞助者);个人专属的乐高奖杯及乐高机器人,以及5万美元的奖学金,连她就读的高中也鸡犬升天,获得“科学人”杂志数位版一年份存取权限与1万元奖励资金。
(Photo Credit: Google)
得奖后的Wenger,获邀前往TEDxWomen、TEDxAtlanta、Tech Talks 进行演讲,参加 Google Trailblazer,参访CERN,还获得新的研究数据。
“嗯,当然没有偏见的意思,但我想我们都有潜能,我是说,我知道大人常常会抱怨我们,但我们这一个世代能生活在一个充满资讯的社会真的很幸运,我们可以学到任何我们想学的事物。”“想到有朝一日我的研究能真的能帮助到真实的人们,实在太令人感到兴奋,也给了我一大堆希望。”
是的,别忘了透过更多样本的训练过程,97.4%与99.1%两个吓人的准确率还有机会更加趋近完美。目前她将研究范围扩展到处理白血病病患的基因剖析,今年秋天当Wenger进入杜克大学后,还会绽放出多么灿烂的花朵,且让我们拭目以待。
(Opening Photo Credit: CBS)
注释 1.false negative,表示在应该有病的情形下检测却显示没病,与之相对的就是伪阳性(false positive),但前者危害的程度比后者只是虚惊一场要严重得多。(回到本文)
2.盲样(blind sample)是拿已经知道结果的样本给不知道结果的研究人员测试,借此确认该研究人员或研究方法的准确性。(回到本文)
相关资料 Young innovators: Meet the brains behind an artificial brain Global Neural Network Cloud Service for Breast Cancer 应用高频项目集探勘技术在 DNA 芯片基因表现分析之研究(I)研究成果报告(精简版)