文/观察未来科技
两年前,2020年12月,science杂志评选了该年度十个重大科学突破,除了在特殊大背景下的mrna疫苗,还有一项就是蛋白质结构预测的人工智能——alphafold。alphafold是由谷歌公司深度学习方面的核心团队deepmind所开发,该团队一直致力于用人工智能和神经网络技术解决不同场景下的学习问题——大名鼎鼎的alphago就出自deepmind麾下。
在围棋博弈算法alphago大获成功后,deepmind又转向了基于氨基酸序列的蛋白质结构预测,提出了名为alphafold的深度学习算法,并在国际蛋白质结构预测比赛casp13中取得了优异的成绩。alphafold的横空问世在几年的时间里彻底改变了生物学,不过,目前,科学家们似乎仍在寻找alphafold这类人工智能工具的最佳用法。
拨开制药迷雾
制药业是危险与迷人并存的行业。传统上,如果某家制药公司想要开发一种新药,只能为了找到潜在的候选药物而去搜索庞大的医学资料库。但显然,这种方法存在巨大的不确定性,需要科学家们付出多年的努力,而且即使找到了候选药物也只是一个起点。一旦确定了候选药物,接下来,科学家们就要对它们进行分析、合成,整个过程可能又需要好几年。
最后,研究人员还要对发现的药物进行临床试验,一开始是在动物身上进行,然后是在一小群人身上,最后是在一大群人身上。简而言之,药品的开发是一场耗时又耗钱的漫长“战争”。除此之外,这场战争中的“阵亡者”数量也很大——根据《自然》数据,一款新药的研发成本大约是26亿美元,耗时约10年,而成功率则不到十分之一。
尽管面临重重阻碍,但计算机科学家出身的生物物理学家亚历克斯·扎沃龙科夫(alex zhavoronkov)却创造性地提出了一条可能的捷径。2012年前后,扎沃龙科夫开始注意到,人工智能在图像、语音和文本识别方面变得越来越擅长了。在他看来,这三个任务都有一个关键的共同点,那就是在每一种情况下都需要庞大的数据库,从而用于训练人工智能。
类似的数据库也出现在了药理学中。因此,在2014年,扎沃龙科夫开始考虑是否可以利用这些数据库和人工智能技术来加快药物开发的过程。
为了把这些想法变成现实,扎沃龙科夫在马里兰州巴尔的摩市的约翰霍普金斯大学一个名为insilico medicine的机构,开始了研究。insilico medicine的“药物发现引擎”的起点就是对数百万的数据样本进行筛选,以确定特定疾病的生物学特征,然后再利用这个引擎确定最有希望的治疗靶点,并运用生成性对抗网络去生成完全适合这些靶点的分子。
3年后,扎沃龙科夫获得了成功,扎沃龙科夫开发出的系统,发现了潜在药物靶点的爆炸性增长和一个更有效的测试过程,让一场以往持续时间长达10年或“持久战”变成了一个月内就可以结束的“小冲突”。在2018年年底,insilico medicine在不到46天的时间里就得到了一系列新分子,而且他们的成果不仅包括最初的发现,还包括药物的合成和计算机模拟的验证实验。
新药发明的过程还包括了一个关键的步骤,即识别新药靶点,也就是药物在体内的结合位置,这是药物研发过程的另一个关键部分。
实际上,从1980年到2006年,尽管每年的投资高达300多亿美元,但是平均而言研究人员每年仍然只能找到5种新药。其中关键的问题就在于复杂性。大多数潜在药物的靶点都是蛋白质,而蛋白质的结构,即2d氨基酸序列折叠成3d蛋白质的方式决定了它的功能。
一个只有100个氨基酸的蛋白质,已经是一个非常小的蛋白质了,但就是这么小的蛋白质,可以产生的可能形状的种类依然是一个天文数字,大约是一个1后面跟着300个0。这也正是蛋白质折叠一直被认为是一个即使大型超级计算机也无法解决的难题的原因。
从1994年开始,为了监测这种超越超级计算机能力的蛋白质折叠过程,科学界每年都会举办一次蛋白质结构预测关键评估(casp)大赛。直到2018年几乎没有人取得过成功。但是,deepmind的开发者们利用神经网络化解了这个难题。他们开发出了一种人工智能,可以通过挖掘大量的数据集来确定蛋白质碱基对与它们的化学键的角之间的可能距离——这是蛋白质折叠的基础。他们把这个人工智能命名为alphafold。
典型的量变,巨大的质变
2018年,alphafold首次参加了casp大赛,并摘得头魁。在2018年的比赛中,alphafold需要与其他参赛的人工智能比赛,解决43个蛋白质折叠的问题。最终,alphafold答对了25个,而获得第二名的人工智能只勉强答对了3个。alphafold的诞生,成为了蛋白质结构解析领域里程碑,也彻底改变了成千上万生物学家的研究。
2020年,deepmind发布了alphafold软件的第二个版本。相较于第二个版本,2018年的更早版本并不够好,不能取代使用实验方法解析的结构,而alphafold2的预测结果平均而言已与实验结果相差无几。当时,alphafold2再一次在casp大赛上一举夺魁。casp大赛每两年举办一次,呈现了生物学界在一项艰巨挑战上的最新进展。
2020年的这项挑战是如何仅凭蛋白质的氨基酸序列确定其3d结构。计算机软件给出的结构会拿来与经过x射线晶体学或冷冻电镜(cryo-em)这类实验方法确认的结果进行对比。x射线晶体学和冷冻电镜分别通过x射线和电子束照射蛋白质的方式来对蛋白质的结构进行成像。
alphafold的预测用被称为“427组”,多个预测达到了惊人的准确性,让它们脱颖而出。当然,alphafold的预测水平有高有低,但将近三分之二的预测结果都与实验结果在质量上不相上下。alphafold的预测甚至帮助确定了lupas实验室多年来一直想要破解的一种细菌蛋白的结构。
一年后,2021年7月15日,alphafold2的论文发表,同时公开的还有免费的开源代码等信息,让业内的研究人员们可以打造属于自己的版本。一周后,deepmind宣布已经用alphafold预测了人体内近乎所有蛋白质的结构,以及20个其他被大量研究的生物体的完整“蛋白质组”,其中包括小鼠和大肠杆菌,累计共有36.5万个结构。
deepmind还将这些信息上传到了由embl欧洲生物信息学研究所(embl–ebi)维护的数据库。在那之后,这个数据库已经收录了近100万个结构。根据deepmind的统计,目前已有超40万人使用过embl-ebi的alphafold数据库。此外,还有一些alphafold的“超级用户”:这些研究人员在自己服务器上安装了alphafold,或是打造了alphafold的云版本,用来预测不在embl-ebi数据库中的结构,或是探索alphafold的新用途。
今年,deepmind还计划发布总计1亿多个结构预测——相当于所有已知蛋白的近一半,是蛋白质数据银行(pdb)结构数据库中经过实验解析的蛋白数量的几百倍之多。
要知道,过去半个多世纪,人类一共解析了五万多个人源蛋白质的结构,人类蛋白质组里大约17%的氨基酸已有结构信息;而alphafold的预测结构将这一数字从17%大幅提高到58%;因为无固定结构的氨基酸比例很大,58%的结构预测几乎已经接近极限。这是一个典型的量变引起巨大的质变,而这一量变是在短短一年之内发生的。
alphafold的最佳用法
除了在制药领域发挥作用,alphafold还被应用到了更多领域。
一方面,alphafold的结构解析能力极大解放了生物学家们的研究:有研究团队还在搜索另一个包含从海洋和废水中提取的dna序列的数据库,试图发现新的食塑酶。通过让alphafold快速预测数千个蛋白的结构,该团队希望能更好地理解酶是如何通过演化拥有分解塑料的能力,并能进一步优化它们。
哈佛大学演化生物学家sergey ovchinnikov认为,这种将任何蛋白编码基因序列转化为可靠结构的能力,对于演化研究来说非常有用。研究人员通过比较基因序列来确定不同物种的生物体与它们基因之间的亲缘关系。而对于亲缘关系较远的基因来说,这种比较可能无法发现演化近亲,因为这些序列已经变了很多。但通过比较变化速度比基因序列更慢的蛋白质结构,研究人员或许能揭示之前没注意到的古代关系。
另一方面,alphafold还是个绝佳的实验工具,alphafold能提供一个初步预测,之后再由实验验证或优化。比如,来自x射线晶体学的原始数据以衍射x射线的图样呈现。一般来说,科学家需要对蛋白质结构有个初步猜测,才能解释这些图样。而alphafold的预测让大部分x射线图样不再需要这些方法。
另外,alphafold不仅改变了科学家测定蛋白质结构的方式。一些研究人员还在利用这些工具打造全新的蛋白质。华盛顿大学生物化学家、蛋白质设计和结构预测领域带头人david baker表示,深度学习彻底改变了他们团队设计蛋白质的方式。baker的团队让alphafold和另一个ai工具rosettafold来设计新的蛋白。他们改写了人工智能的代码,让软件在得到随机氨基酸序列的情况下,对它们进行优化,直到合成出能被这些神经网络识别为蛋白的东西。
2021年12月,baker的研究团队报告了他们在细菌中表达了129种这些幻想蛋白,发现其中约1/5的蛋白会折叠成类似他们预测的结构。而这是这种网络能用来设计蛋白质的首个证明。
基于此,今年7月21日,来自华盛顿大学等机构的科学家们在science杂志上发布了一款新的ai软件,该软件能够为自然界中尚不存在的蛋白质绘制结构。更重要的是,科学家们已经利用这一软件创造出潜在用于工业反应、癌症治疗、甚至用于预防呼吸道合胞病毒(rsv)感染的候选疫苗的原始化合物。
虽然alphafold的出现推动了巨大进展,但科学家认为有必要说明它的局限性:一些研究人员尝试将alphafold应用于会破坏蛋白天然结构的各类突变,包括与早期乳腺癌有关的一个突变,这些尝试证实了alphafold还无法预测新的突变对蛋白质的影响,因为没有演化上相关的序列可以用来研究。
并且,alphafold无法很好地处理会在不同构象中呈现不同结构的蛋白。这些预测是针对单独的结构,而许多蛋白质其实会与配体一起发挥功能,如dna和rna、脂肪分子、铁等矿物质。
目前,alphafold掀起的革命会走向何方依然无法预见,但每一天,alphafold都显示出推动的巨大力量。embl-ebi的计算生物学家janet thornton认为alphafold带来的最大转变之一,可能是让生物学家更愿意接受计算机和理论的研究方法。换言之,真正的变革是人们思维方式的变化,这其实就是ai工具的最佳用法。alphafold所彰显的意义,是科技的力量。
试想一下,在未来,如果把人工智能alphafold与生成式对抗网络insilico结合起来,再加上量子计算领域可预期的突破,我们就将真正走出制药的迷雾,连同生物领域的百年来的困惑,而走向一条未来生物学的坦途。