西元 2003 年,人类的 DNA 序列第一次完整的被研究学者排序且绘制成图,造成当时一阵轰动。近十二年来,科学家以及医生无不用尽心思,希望能够从这些 DNA 序列中解答一个他们百思不得其解的问题──到底是什么样的基因突变会造成疾病的产生?而现在,来自加拿大的研究团队运用了多伦多大学新研发的计算技术后,科学家对于这项问题的解答仿佛见到了一道曙光,从中发现了先前无法预测的疾病决定因素,例如自闭症、遗传性疾病等。
若将 DNA 视为一个新的语言,那么它就是一个极艰涩的语言,拥有 30 亿个字母,不同的排列组合都会有不同的意思需要人类去解读。而 Brendan Frey 教授领军的团队在探索人类活细胞是怎么“读取”DNA 后,排列了所有的基因突变可能性,借此一解在基因上的各种变动可能会造成某些疾病产生。他并指出,先前的科学家急于想找出各种造成疾病的基因突变,却没有真正理性的想去了解“为什么”基因突变会导致疾病的产生,这也是为什么他们总是卡在特定阶段无法再往前迈进的原因。
各个研究团队已知将 DNA 转换成蛋白质的“RNA 剪接(RNA splicing)”过程中,若有任何的混乱或是中断就会造成疾病的产生,而 Frey 与其他科学家的差别就在于研究的采取对象不一样。通常,其他科学家们只研究在最后转译为蛋白质的外显子(exon)突变,却没有去注意到虽未被转译,但也决定蛋白质生成过程的内含子(intron)。Frey 的团队采取与他人不同的方式,检视并研究由内含子主导的剪接过程。
在这个研究过程中,Frey 使用了新的电脑技术“深度学习(deep learning)”,教导电脑在扫描 DNA 的一部分后,读取它的基因指令,了解蛋白质是怎么被拼贴而成,以及那些特定的蛋白质会被生产出来。“深度学习”能学会解读极度复杂的生物和药理关系,被视为这个世代以来最重要的发展。也正因为有了这项新技术的帮助,由来自不同领域的的高手所组成的 Frey 研究团队才能够顺利的完成这项艰难的研究。
在教导了电脑“深度学习”后,研究团队利用它去寻找在剪贴过程中出错所产生的突变,他们发现,这样的方法竟然准确预测高达 94% 的准确度,包括脊髓性肌肉萎缩症以及直肠癌等已经被研究透彻的疾病,更重要的是,深度学习还能够准确预测从未被看过且了解过的突变,是在医疗层面上的一大突破。
小有所成,持续寻找相关基因资料
有了这样的结果,Frey 的团队还不肯罢休,他们决定着手调查棘手的“自闭症光谱(autism spectrum)”。在还未有调查结果前,已知的自闭症光谱基因突变只有少数的十几个而已,在运用深度学习后,Frey 团队发现了 39 个新的自闭症光谱的基因突变可能性。而这样的案例只是其中一个而已,深度学习还能够被运用在调查不同的疾病以及在个体之间非疾病的特征等,爆炸性的调查结果也是指日可待的。
西班牙基因调控中心的 Juan Valcárcel Juárez 博士在得知这样的研究结果后便欣然若接的表示,就算他们能全然操控这项基因语言,但一样要了解隐含在内的语言文法,运用深度学习的电脑调查就像拥有了全新的语言翻译机,提供了个人化药物的重要讯息,成为未来病人在疗程中不可或缺的帮助。
- ‘Deep learning’ reveals unexpected genetic roots of cancers, autism and other disorders
(首图来源:Medical Press)