AlphaFold遇到有力竞争对手,Facebook打造的Meta AI更高效、更智能
2022-11-07 徐诗露 深究科学 ID: deepscience
Meta AI是什么?它是由Meta公司开发的,和AlphaFold一样,它也一款用人工智能(AI)预测蛋白质结构的系统。而Meta公司的前身正是我们熟悉的Facebook。
导读
“我们将看到蛋白质结构预测变得更高效、更简单、更便宜,这将为新事物打开大门。”
——德国慕尼黑工业大学的计算生物学家伯克哈德·罗斯特(Burkhard Rost),他在对比Meta AI和AlphaFold时这样感慨。
Meta AI是什么?它是由Meta公司开发的,和AlphaFold一样,它也一款用人工智能(AI)预测蛋白质结构的系统。而Meta公司的前身正是我们熟悉的Facebook。
如今,Meta AI带着它预测的6亿种蛋白质结构——进军AI预测蛋白质领域。
Meta的进军会给蛋白质预测领域带来什么?相比于AlphaFold,新出现的Meta AI又有哪些优缺点?
两三个月前,你还记得再次轰动科学界的AlphaFold吗?打造它的DeepMind公司曾表示,AlphaFold成功预测了地球上超2多亿种蛋白质结构。
实际上,自从AI进入蛋白质结构预测领域以来,就有越来越多的企业投入其中,利用AI来预测蛋白质结构的系统也层出不穷。
今天,我们的主角是最近刚刚出现的——Meta AI,令人吃惊的是,它是由Facebook设计完成的。
01
Meta AI:“自动补全”蛋白质结构
让德国慕尼黑工业大学计算生物学家罗斯特称赞“更高效、更简单、更便宜”的Meta AI是什么?
2022年7月,AlphaFold预测了约2.2亿种蛋白质结构的消息,似乎到今天还在我们眼前萦绕。
AlphaFold预测的蛋白质结构
它几乎涵盖了DNA数据库中已知生物的所有蛋白质。而今,另一家科技巨头Meta正在填补蛋白质宇宙中不为人知的部分。
2022年10月31日,Meta团队在biorxiv预印本平台发表了一篇名为“Evolutionary-scale prediction of atomic level protein structure with a language model”的论文,对Meta AI进行了详细的介绍。
发在预印本上的相关论文,截图来自biorxiv.org
论文介绍,Meta AI预测了约6亿个蛋白质结构,这些蛋白质来自细菌、病毒和其他尚未被表征的微生物。
对,你没听错,是6亿个。
为了预测如此大规模的蛋白质结构数据,研究团队首先需要攻克的重要问题之一就是——突破速度的限制。
为此,他们训练了一个“大型语言模型”(Large language model,简称LLM),这个模型可以通过大规模数据,训练超大参数量的巨量模型,并直接通过蛋白质序列预测出准确的蛋白质结构。
怎么理解呢,就像是给它几个字母或者单词,它通过计算就可以对文字段落进行预测。
此前,LLM往往是用在文本预测上,而Meta的研究人员将其用于蛋白质结构预测,并让它学会了在氨基酸比例并不明确的情况下,将蛋白质“自动补全”。
因此,Meta AI的预测速度大大提高——Meta团队称,“这不仅比当前最先进的技术快60倍,还能保持准确性。”
他们给这个使用了LLM的算法模型命名为ESMFold,并将其应用于宏基因组DNA数据库中进行测试,并将测试结果以“ESM宏基因组图谱”的形式推出,其中包含了6亿多种蛋白质结构。
宏基因组数据库,截图来自genome.gov
这些结构不仅为自然界的广度和多样性提供了新视角,还将在医学、绿色化学、环境应用和可再生能源等领域加速蛋白质的发现。
Meta AI团队的研究负责人亚历山大·里夫斯(Alexander Rives)表示,“这是我们此前并不了解的结构,这些神秘的蛋白质为我们深入探索生物学带来了可能。”
那么,Meta AI究竟有什么样的魅力?与AlphaFold相比,它又有哪些优势和不足?
02
6.17亿种蛋白结构,2周搞定
Meta团队直言,虽然它并不像AlphaFold那样准确,但是它先进的算法让它在预测结构的速度远超AlphaFold。
什么概念呢?AlphaFold在预测的过程中,大概需要几分钟才能生成一个预测结果,而Meta AI预测出6.17亿种蛋白质,仅仅花了2周的时间。
——算下来,Meta AI每分钟能预测出3万多种蛋白质结构!
尽管预测的准确度不够高,但整体而言,在这6.17亿个预测中这个算法模型的结果显示,超过1/3的预测结果都是高精度的,甚至在某些情况下,它们的识别精度可以达到原子级别。
此外,Meta团队正在发布一个用于创建数据库的快速蛋白质折叠模型,以及一个API程序接口。
这个模型和接口将供给所有研究人员使用,帮助他们识别以前未被研究出来的蛋白质结构,探索人类的进化历程,并研发可用于医学和其他领域的新蛋白质。
Meta团队表示,“我们的新语言模型拥有150亿个参数,是迄今为止最大的蛋白质语言模型。”
当然,除了Meta AI和AlphaFold之外,今天还有许多企业也投入到AI+蛋白质预测领域中来,他们又有哪些成果?
03
层出不穷的AI+蛋白质预测系统
国内外研究蛋白质预测的企业和团队层出不穷。除了我们上文讲的Meta AI和AlphaFold,还有RoseTTAFold、Hermite等。
RoseTTAFold是由华盛顿大学蛋白质设计研究所David Baker等人设计的,它基于“三轨”神经网络模型,能够同时处理蛋白质序列中的模式、蛋白质的氨基酸如何相互作用以及蛋白质可能的三维结构。
关于RoseTTAFold的论文,截图来自science.org
而Hermite系统则由北京大学知名数学家鄂维南联合张林峰、孙伟杰等人打造的深势科技设计,这是新一代药物计算平台,能够完成蛋白质结构预测、化合物筛选、先导化合物预测等工作。
这些只是AI预测蛋白质结构的几个例子。目前,真正致力于这一领域的企业和研究团队数不胜数。
越来越多的企业、人才、资金投入其中,这对蛋白质的研究意味着什么?
这种全新的蛋白质研究方式离我们越来越近,它不仅可以用于研发新药物、开发疫苗、发现复杂疾病的治病机理,还与我们的环境探测和环境保护密切相关。
或许,我们很快就能够切身感受到AI和蛋白质结构预测带来的新变化。
参考资料
1.ESM Metagenomic Structure Atlas by Meta AI (esmatlas.com)
2.AlphaFold’s new rival? Meta AI predicts shape of 600 million proteins (nature.com)
3.Evolutionary-scale prediction of atomic level protein structure with a language model | bioRxiv
4.ESM Metagenomic Atlas: The first view of the ‘dark matter’ of the protein universe (facebook.com)
5.Metagenomics (genome.gov)
6.RoseTTAFold: Accurate protein structure prediction accessible to all – Institute for Protein Design (uw.edu)
7.Accurate prediction of protein structures and interactions using a three-track neural network | Science
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言