近几年来,可以用来精准的操控任何生物 DNA 的 CRISPR 技术受到生物科技展业的大量关注。虽然好用,但是科学家仍然需要一些软件的演算来加速这个过程。
CRISPR──又称常间回文重复序列丛集(Clustered Regularly-Interspaced Short Palindromic Repeats)──原本是一个细菌用以抵抗病毒入侵的机制,科学家利用这个现象来关掉某个基因或是在准确的位置插入 DNA。这个系统有两个重要的核心:一小段可以调整的基因序列(又称引导 RNA)还有一个做为基因“剪刀”的蛋白质(通常是一个叫做 Cas9 的 DNA 酵素)。引导 RNA 带着 Cas9 在生物体的基因体中寻找可以配对的 DNA 序列,像魔鬼毡一样黏住然后让 Cas9 去切断 DNA。这些序列由 4 个碱基(base)组成,分别是:腺嘌呤(A,Adenine)、胸腺嘧啶(T,Thymine)、鸟粪嘌呤(G,Guanine)与胞嘧啶(C,Cytosine)。细胞内的修复机制接着把断口接起来,并在过程中破坏或夹进一些 DNA 序列,以此扰乱基因。生物学家们也可以在指定位置加入想要的碱基对。
不是最新,但最好用
CRISPR 并不是第一个出现的基因编辑工具,但却是目前为止出现最简单且便宜的一个。研究学者可以用它来剔除(knock out)一些动物的基因来研究基因的功能、给农作物新的特性、调控微生物以产生药物、发展基因疗法以及用基因调整的方式在胚胎期“修正”遗传疾病。
传统的基因体改造技术仅仅是将 DNA 送入细胞中──谁也不知道它会插到哪里去。而 CRISPR 就像编辑文件时,把游标移到某个字前面然后按下“删除”或“贴上”,整套系统的建构甚至可以不用到 50 美元。虽然目前也有很多其他可以精准调控的基因编辑系统,但每次使用时都必须再经过调整,而且需要有更多专业和资源。帮助发展这项技术的麻州综合医院心血管研究中心化学生物学家 Jing-Ruey Joanna Yeh 表示:“在过去不到 4 年的过程中,CRISPR 已经改变了世界上的很多实验室。这个简单而且有效率的系统让任何实验室都可以轻松使用。”
虽然目前看起来很好用,但是 CRISPR 系统并不保证成功。“我们仍然不是很了解为什么,”加州大学柏克莱分校创新基因体计划主持人 Jacob Corn 表示:“这时候就是软件出场的时候了:算法可以帮助研究者设计一个统计上比较容易成功的 CRISPR 系统。”
大海捞针──寻找可用的序列
科学家们在找的通常是一段可以控制某个特定机能的 DNA 片段──一个基因,通常都由几千几百个碱基组成。相对的,引导 RNA 通常只有约 20 个碱基长,所以学者们要在整段基因中找出 20 个碱基序列来相配。选择时除了必须在基因之内,还有两个需要考虑的限制:目标必须位在某个称为“PAM”(Protospacer Adjacent Motif)的标的附近,而且不能和基因体上的序列重复。寻找 PAM 是一件相当容易的事──就像在一本书里寻找“的”这个字一样。
要确认那 20 个碱基的序列在整个基因体中独一无二,就没那么容易了。
在仅仅以 4 个碱基组成,数以百万计的碱基对中,序列经常出现重复。引导 RNA 也因此很有可能会被错误的片段(off-target sites)吸引而产生错误的结果;太过于相向的序列也有可能造成偏差。Protospacer Workbench 的开发者、来自巴黎巴斯特研究所的资讯学家 Cameron Ross McPherson 说:“我们当然可以用肉眼去扫描整个基因体,但这样会找到天荒地老。”
机器运算可以利用使用者给予的少量资讯,快速的达成这项工作。哈佛大学开发的 CHOPCHOP 需要的部分,就只有输入物种名称、基因序列还有一些选择性的进阶参数。接下来,电脑会帮你找到所有可能的序列,并依据在整个基因体中的重复性等参数给予排名,还会列出所有可用的引导 RNA 序列;而这只需要数秒的时间。举例来说,斑马鱼的左右对称基因(spaw gene)上就可以找到 55 个可能的引导 RNA 序列,而且每个都与基因体中的其他序列保持至少两个碱基的差异。
找出这 55 个理论上可以运作的引导 RNA 是个有用的起点,但是要确认哪一个才是最好的还是得透过费时的实验和尝试错误。能够找出一个绝对可以运作的 RNA 的运算系统仍有待开发。
让预测更加准确,或让蛋白质帮忙瞄准
为了达到那个目标,生物统计学家开始爬梳实验资料来寻找成功案例中相类似的模式,并希望可以把这些模式提供给能够机器学习(machine-learning)的预测系统中。除了少数大型的数据库之外,大部分的资料仍然散落在各个独立的小型研究中。“把他们集合起来就可以得到非常有利的资源。”加州大学的 Corn 博士说。
布洛德研究所(Broad Institute)的一群科学家在人类及老鼠细胞中测试了近 2,000 个引导 RNA,并在最近发表了一些可以改进算法的规则。另外一些科学家则在 Cas9 以及其他剪切蛋白质上动手脚,尝试为使用者提供更多选择。有些蛋白质可以提高引导 RNA 的准确度。如果成功的话,能够预测 CRISPR 准确度的软件不是要被淘汰,就是必须继续进步。“如果有一天我们真的能够排除错位(off-target)的影响就太好了。不过我们还没成功。”Corn 博士说。
- Software Helps Gene Editing Tool CRISPR Live Up to Its Hype
(首图来源:IEEE Spectrum)