深度学习研究公司 DeepMind 发表世界首个目前最全、最高品质的人类蛋白质组结构预测图库,论文发表于权威期刊《Nature》。
人类蛋白质组(Proteome)就是人类所有蛋白质,类似人类基因组包含所有人类基因。破译人类蛋白质结构(卷曲形状)对生物学、医学至生命科学有无法估量的深远影响。
这是一本名副其实的世界蛋白质万年历。
关注深度学习领域的读者可能知道,DeepMind多年前专为预测蛋白质结构开发了AlphaFold算法。上周DeepMind刚公开AlphaFold 2系统论文和原始代码。
AlphaFold 2被誉为“蛋白质折叠结构预测”长达50年重要问题的最优解,将准确性平均分提升到92.4(百分制),误差不超过一个原子大小。Deepmind的蛋白质组预测图,正是基于这项技术。
感谢AlphaFold团队长达5年的不懈努力,以及合作伙伴的帮助,我们现在终于可将关键资讯公之于众。
(Source:DeepMind,下同)
DeepMind人类蛋白质组预测图包括:
- 人类约2万种蛋白质98.5%蛋白质。
- 20种科研常用的重要生物体(如小鼠、果蝇、大肠杆菌等)蛋白质。
DeepMind还和欧洲生物资讯研究所(EMBL-EBI)合作,将这些蛋白质结构预测图整理成一个。于数据库输入蛋白质编号/名字/基因或生物名,即可快速查找到对应蛋白质,并查看AlphaFold 2预测的高准确度折叠图。
如下图显示是PE-PGRS family protein PE_PGRS33。这是与结核病相关的蛋白质。数据库包含蛋白家族和基因资讯等介绍,并提供拖曳互动的3D结构图,颜色越冷部分,表示AlphaFold预测可信度越高。
(Source:APDB)
DeepMind还宣布接下来几个月,团队将继续扩大PDB内容,涵盖目前已知超过1亿种蛋白质大部分。想了解一个蛋白质的样貌,有多种视图可用:
- 空间填充图,方便看到蛋白质分子结构。
- 飘带图,准确显示蛋白质的α-氨基酸分子链条折叠结构。
- 表面图,可看到蛋白质与水分子接触的表面。
这次的蛋白质折叠结构就是透过飘带图表示。
为什么了解和预测蛋白质折叠结构很重要?
蛋白质是复杂的“生物机器”。每种蛋白质都有独特功能:有的负责运输代谢物质,如血红蛋白;有的负责加速生物化学反应,如淀粉酶;有的负责调节新陈代谢,如胰岛素;有的直接构成生物机体组织,如胶原蛋白等。
虽然功能多种多样,但所有已知蛋白质结构都是由21种已知氨基酸构成。氨基酸也只含碳、氢、氧、氮、硫和硒六种元素。但氨基酸在链条上的排列组合、链条折叠方式,以及最终折叠结构,决定蛋白质的最终功能。
因此准确了解蛋白质的折叠结构对生命科学、环境科学等人类重要课题都十分关键。
▲ AlphaFold预测的果蝇Q9VZS7蛋白质结构,颜色越暖的部分准确度越低,橙红色代表该部分每残基准确度(pLDDT)分值低于50。
加深人类对物种蛋白质组的了解
蛋白质研究的顶级机构和人士,对这次DeepMind发表内容极高评价。朴兹茅斯大学生物酶技术创新中心主任John McGeehan教授表示,“过去我们花费数月甚至数年的工作,现在AlphaFold只用一个周末就可做到。”
“被忽视疾病药物研发倡议”(DNDI)Ben Perry相信,AlphaFold将开启新研究领域,“我们非常兴奋看到,最尖端的AI技术聚焦帮助最贫困的人口。”
“我们相信,这专案代表截至目前AI对推进科学知识进步最有价值的贡献,并且是AI能帮助人类的优秀案例。”DeepMind部落格写道,“我们的发现将助力生物学和医学未来更多的新发现。”
(本文由 品玩 授权转载;首图来源:pixabay)
延伸阅读:
- DeepMind AI 预测展现惊人准确度,蛋白质折叠难题有解?