模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

news/2024/7/8 15:21:24 标签: 蛋白质大模型, ESM3, Meta, 蛋白质, 模拟, 基因, 排序

模拟5亿年自然进化史,全新蛋白质大模型>蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞。

在这里插入图片描述

能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋白质相当于模拟自然界5亿年的进化。
继AlphaFold 3更新后,我们又看到了一个生命科学领域的大模型ESM3

模型开发团队来自于名为Evolutionary Scale AI的初创公司,团队负责人Alex Rives在推特上官宣了模型发布的消息。

这个令人振奋的消息也得到了Yann LeCun的转发,他表示,你们这个公司有点「闷声发大财」的意思。

在这里插入图片描述

相比AlphaFold系列,ESM3有什么竞争优势?

首先就是Meta团队轻车熟路的——开源。

虽然模型API仍处于内测阶段,需要申请试用资格,但模型代码已经放到了GitHub上。而且公司还会与AWS和英伟达云计算平台合作,方便开发者使用和部署。

仓库地址:https://github.com/evolutionaryscale/esm

但比较遗憾的是,目前在HuggingFace仓库中还没有公开模型权重。英伟达官方博客显示,ESM3将在Nvidia BieNeMo平台提供一个小型开源版本的代码和权重,但仅限于非商业用途。

仓库地址:https://huggingface.co/EvolutionaryScale/esm3-sm-open-v1/tree/main

此外,ESM3与不同于模拟多种生物分子的AlphaFold 3,只专注于蛋白质,但可以同时推理其序列、结构和功能,这种多模态能力属于领域首创。

更让人耳目一新的是,ESM3在自然界中27.8亿个多样化蛋白质上进行训练,逐渐学习到了进化过程如何让蛋白质发生变化。

从这个角度来看,ESM的推理过程可以被视为「进化模拟器」,这为当前的生命科学研究开辟了全新的视角。团队甚至在官网文章中提出了「模拟5亿年进化」的标语。

或许你已经注意到了,ESM这个名字和Meta之前的蛋白质模型ESMFold非常类似。

这并不是有意擦边。事实上,Evolutionary Scale这家初创公司就是Meta-FAIR蛋白质小组的前成员创办的,公司的首席科学家Alex Rives正是这个已解散团队的前负责人。

去年8月,在Meta的「效率年」中,扎克伯格选择解散了只有十几名科学家的蛋白质小组,让公司专注于更有盈利前景的研究。

但Rives并没有被Meta的这种举动吓倒,而是决定自立门户,他们目前已经筹集了1.42亿美元的种子资金。

那么就来仔细看看,这次的ESM3具体有哪些新内容?

ESM3:生物学的前沿语言模型

生命科学并不像我们想象的那般神秘莫测、不可捉摸。

蛋白质分子虽然有难以置信的多样性和动态变化,但是它的合成遵循严密的算法与流程。如果把它看成一门技术,其先进程度远远超过任何人类创造的工程。

生物学,就是一个厚厚的密码本。

只不过,这个密码本是用我们尚未理解的语言写就的,即使是当今最强超算上运行的工具也不过触及皮毛。

如果人类能够阅读,甚至是书写「生命代码」,就能使生物学变得可编程。试错法将被逻辑取代,费力的实验将被模拟所取代。

ESM3就是朝这个宏伟愿景迈出的一步,是迄今为止首个能同时对蛋白质的序列、结构和功能进行推理的生成模型。

过去五年中LLM的突飞猛进,也让ESM团队发现了Scaling Law的威力,他们发现,同样的模式也适用于生物学。

随着训练数据以及参数规模的扩大,模型会加深对生物学基本原理的理解,并能更好地预测、设计生物结构和功能。

因此,ESM3的开发思路也与Scaling Law一脉相承,其规模比上一代ESM大大扩展,数据量提高了60倍,训练计算量提高了25倍,并且是具有原生多模态的生成模型。

ESM3的训练过程囊括了地球自然环境的多样性——数十亿种蛋白质,从亚马逊雨林到海洋深处,小到土壤中的微生物,极端到深海热泉。

HuggingFace上的模型卡显示,训练集中天然蛋白质数量达到27.8亿,并通过合成数据增强到31.5亿个序列、2.36个结构以及5.39亿个带有功能注释的蛋白质,token总数达到7710B。

模型训练参数总量达到98B,使用了超过1024 FLOPS的算力。团队似乎与英伟达紧密合作,训练使用了Andromeda集群,是当今吞吐量最高的GPU集群之一,部署了最先进的H100 GPU和Quantum-2 InfiniBand网络。

在这里插入图片描述

网页来源:https://andromeda.ai/
他们表示「相信ESM3的计算总量是有史以来生物模型之最」。

推理蛋白质的序列、结构和功能
处理文本的语言模型一般以token作为基本单位,但多模态的蛋白质模型更加复杂,需要将序列、三维结构和功能都转换为离散的字母进行表示。

为了更好地扩展训练规模、释放模型的「涌现」生成潜力,ESM3使用的词汇在同一语言模型中能够很好地连接序列、结构和功能,进行联合推理。

不同于GPT等语言模型,ESM3的训练目标继承于掩码语言模型(masked language modeling objective)。

每个蛋白质的序列、结构、和功能的部分位置会被掩码,模型在训练过程中需要逐渐理解三者之间的深层联系,从而预测掩码位置。如果遮蔽所有位置的标记,就相当于执行生成任务。

由于在蛋白质的序列、结构和功能上联合训练,对这三种模态可以任意进行掩码和预测,因此ESM3实现了「全对全」预测或生成(all to all)。

也就是说,模型的输入可以是部分或完全指定的三种模态的任意组合。这种强大的多模态推理能力有很强的应用价值,科学家们能以前所未有的灵活度和控制度设计全新的蛋白质

比如,可以提示模型结合结构、序列和功能,提出PET酶活性位点的潜在支架结构。PET是一种常用的塑料,如果PET酶设计成功,就能用于高效分解塑料废物。

在这里插入图片描述

ESM3通过序列、结构和功能的多模态提示设计PET酶活性位点的支架

Evolutionary Scale的联合创始人兼兼工程副总裁Tom Sercu表示,在内部测试中,ESM在应对各种复杂提示时表现出了令人印象深刻的创造力。

「它能够解决一个极其困难的蛋白质设计问题,创造一种新型绿色荧光蛋白。ESM3能够帮助科学家加速工作,开辟新的可能性——我们期待看到它在未来对生命科学研究的贡献。」

当数十亿个蛋白质来自进化时间轴上的不同位置,具有丰富的多样性时,模型还能学到模拟进化的能力。

能力随规模涌现
正如LLM在规模扩展中「涌现」出了语言理解、推理等能力,在解决有挑战性的蛋白质设计任务时,ESM3也随规模增加逐渐显现能力,其中一个重要的能力就是原子级协调。

比如,提示中可能指定组成蛋白质的两个氨基酸需要在序列位置上相近,但在结构中相距较远。这衡量了模型在结构生成任务中达到原子级精度的能力。

这对于设计功能性蛋白质至关重要,而ESM3解决这类复杂生成任务的能力可以随着规模增加逐渐提高。

不仅如此,在训练完成后,ESM3的能力还有进一步提升的空间,其机制类似于LLM常用的RLHF方法。

但区别在于,ESM3并不是从人类那里接受反馈,而是可以评估自身的生成质量,进行自我改进,也可以结合已有的实验数据和湿实验结果,让ESM3的生成与生物学结果保持对齐。

在这里插入图片描述

模拟5亿年的进化

在发表的论文中,ESM3团队详细介绍了他们在模型上观察到的「模拟进化」功能。

论文地址:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

绿色荧光蛋白(Green Fluorescent Protein,GFP)及其荧光蛋白家族是自然界中最美丽的蛋白质之一,但它们只存在于「生命之树」的几个分支中。

但GFP不仅仅是美丽而已,它包含一种荧光发色团(fluorescent chromophore)。这种分子可以吸收短波长的单色光子、捕获部分能量,再释放出波长较长的另一种单色光子。比如,自然界存在的GFP可以吸收蓝光并发出绿光。

由于这种特性,GFP能够作为标记,帮助科学家在细胞内观察蛋白质,成为了生物学中最广泛使用的工具之一,GFP的发现也因此获得了诺贝尔奖。

GFP的功能如此独特且有用,结构也是非常罕见:由十一条链组成的桶状结构,中间穿过一条螺旋。折叠后进行自发反应,在蛋白质中心的分子会重新排列,产生荧光发色团。

这种机制是独一无二的。没有其他已知的蛋白质能够自发地从其自身结构中形成荧光发色团,这表明即使在自然界中,产生荧光也是相当罕见且困难的。

为了能在实验室有更广泛的应用,科学家们尝试添加突变或改变颜色,进行人工合成。最新的机器学习技术能够搜索到序列差异高达20%的变体,但功能性GFP的主要来源依旧是自然界而非蛋白质工程。

想在自然界中找到更多的变体也并不简单,因为新荧光蛋白的进化需要漫长的时间——GFP所属家族的历史相当久远,它们从祖先序列中分化出来的时间点能追溯到数亿年前。

这个棘手的问题或许能在ESM3这里得到解决。

将天然GFP核心结构中几个位点的信息作为提示,并使用CoT技巧,ESM3成功生成了新型GFP的候选者。

这种生成绝不可能是随机撞大运或者是全局搜索,因为可能的序列和结构的组合起来会达到天文数字——20229 x 4096229 ,比可见宇宙中所有的原子数加起来还要多。

在首次实验中,团队测试了ESM3生成的96个候选蛋白,其中出现了成功的发光样本,而且存在一种十分独特的结构,与自然界中任何蛋白质都相差甚远。

在另一组96个候选样本中,发现了几种亮度与天然GFP相似的蛋白质,其中一种亮度最高的蛋白质被命名为esmGFP,与最接近的天然荧光蛋白相比有96个突变(在229个氨基酸组成的序列中,有58%的相似部分)。

与自然进化不同,蛋白质语言模型并不在进化约束内明确工作。

但为了让ESM3解决其预测下一个掩码token的训练任务,模型必须学习进化如何在潜在蛋白质空间中演变。

从这个意义上说,ESM3生成与天然蛋白十分相似的esmGFP的过程,可以被视为一种进化模拟器。

对esmGFP进行传统的进化分析是自相矛盾的,因为它是在自然过程之外创造的,但仍可以从进化生物学的工具中获得洞见,了解一个蛋白质通过自然进化与其最近的序列邻居分化所需的时间。

因此,研究团队使用进化生物学的方法,把esmGFP当成自然界新发现的蛋白质进行分析。他们估计,esmGFP等效于进化模拟器执行的超过 5 亿年的自然进化。

在这里插入图片描述

开放模型

自成立以来,ESM项目(ESM project)一直致力于通过发布代码和模型来实现开放科学。目前仍能在GitHub和HuggingFace上找到团队在几年前发布的代码和模型权重。

仓库地址:https://huggingface.co/facebook/esm2_t36_3B_UR50D/tree/main
看到ESM模型在研究和工业领域的创造性和有影响力的应用,可谓是令人惊叹:

  • Hie等人使用ESM-1v和ESM-1b来进化抗体,改善了结合亲和力、热稳定性和病毒中和等治疗相关特性。
  • BioNTech和InstaDeep微调了一个ESM语言模型,用于检测COVID刺突蛋白中的变异,成功地在WHO指定之前标记了所有16种关注变异。
  • Brandes等人使用ESM-1b来预测突变的临床效果,目前这仍是完成该重要任务的最强方法。
  • Marsiglia等人使用ESM-1v来设计新的抗CRISPR蛋白变体,这些变体在保持目标编辑功能的同时,减少了对非目标副作用。
  • Shanker等人使用ESM-IF1引导多样蛋白的进化,包括实验室验证的对SARS-CoV-2高效抗体。
  • Yu等人微调了ESM-1b来预测酶的功能,包括稀有和研究不足的酶,并通过实验验证了预测结果。
  • Rosen等人使用ESM2嵌入来构建单细胞基础模型中的基因表示。
  • Høie等人微调了ESM-IF1在抗体结构上的表现,在CDR区域的序列恢复中达到了最先进的性能,设计出了高结合亲和力的抗体。
    而这些,只是建立在ESM平台上的惊人工作的一小部分!

如今,团队正式宣布,将发布一个ESM3 1.4B参数版本的权重和代码,以便科学家和开发人员能够基于ESM3的理念和架构进行构建。

参考资料:
https://blogs.nvidia.com/blog/evolutionaryscale-esm3-generative-ai-nim-bionemo-h100/

https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

https://www.evolutionaryscale.ai/blog/esm3-release


http://www.niftyadmin.cn/n/5537367.html

相关文章

强化学习的数学原理:蒙特卡洛学习

概述 实际上将之前 policy iteration 当中基于模型的部分只要替换掉不需要模型的部分,就得到了本节课的蒙特卡洛的算法;另外在本门课当中将 value iteration 和 policy iteration 统称为 model-based reinforcement learning,更准确的说应该…

如何通过KB知识库系统实现内部知识的管理

“Baklib 通过构建KB知识库系统实现内部知识的管理,构建 CMS 系统实现网站内容管理,构建 DAM 实现对原子化数字内容的管理。” Baklib 从多个维度和深度实现对数字内容的管理。 CMS 系统 CMS 系统(Content Management System 内容管理系统)是一种帮助用…

前端面试题2(vue3)

1. Vue 3 中的 Composition API 是什么?与 Options API 的区别是什么? 答案: Composition API 是 Vue 3 引入的一种新的编程模型,它允许开发者以更灵活和模块化的方式组织代码。与传统的 Options API 相比,Compositio…

大量设备如何集中远程运维?用好向日葵的这几个功能很重要

当企业的业务不断发展,不同系统、不同用途的IT设备数量也会不断上升,面对不断扩张的设备规模,IT运维的压力自然也会陡然上升。 面对这种情况,传统的线下运维方式已经不再合适,我们需要引入一个专业的,可以…

拍摄泡咖啡的剧本!

泡咖啡的过程可以是一种放松和享受的仪式,同时也是一个记录生活美好瞬间的好机会。以下是一些步骤和提示,帮助您记录泡咖啡的过程: 1. **准备材料**: 确保您有新鲜的咖啡豆、磨豆机、咖啡壶、滤纸、热水和杯子。 2. **选择音乐**&…

2024 Parallels Desktop for Mac 功能介绍

Parallels Desktop的简介 Parallels Desktop是一款由Parallels公司开发的桌面虚拟化软件,它允许用户在Mac上运行Windows和其他操作系统。通过强大的技术支持,用户无需重新启动电脑即可在Mac上运行Windows应用程序,实现了真正的无缝切换。 二…

Dockerfile打包部署常用操作

文章目录 1、Dockerfile部署java程序(jar包)1.1、创建Dockerfile1.2、将Dockerfile和要上传的jar包放到一个目录下,构建镜像1.3、创建启动容器 2、Dockerfile部署vue2.1、创建dockerfile文件2.2、将打包的dist文件放到dockerfile同文件目录下…

公共事件应急日常管理系统-计算机毕业设计源码40054

公共事件应急日常管理系统的设计与实现 摘 要 本研究基于Spring Boot框架,设计并实现了公共事件应急日常管理系统,旨在提升公共事件的应急响应和日常管理效率。系统包括应急资源管理、物资申请管理、物资发放管理、应急培训管理、科普宣教管理、公共事件…