大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
今年,化学诺贝尔奖授予了AlphaFold,AI+Science受到空前的关注。人们惊叹于,仅仅是一个蛋白质结构预测模型,就能释放出如此巨大的行业潜力。
就在当下,在第三届中国生物计算大会上,全球规模最大的生命科学基础模型横空出世——
xTrimo V3,参数规模高达2100亿,覆盖蛋白质、DNA、RNA、细胞等七大主流模态。背后玩家正是来自李彦宏孵化创办的百图生科。
与应用于其他行业的基础模型有所不同,他们解码的是生命语言,而非自然语言,意味着不仅能处理复杂的生物序列,为药物研发、精准医疗等领域助力;还能开启更多的前沿突破,比如在基因进化、合成生物学、设计/创造生命等方面创造价值……
这样一个与我们每个人都息息相关的时代课题,如今竟然先于其他垂直领域,迎来了首个千亿基础模型。
并且,正像当时OpenAI推出提供免费Token一样,它也限时提供免费Tokens,今年年底之前成功注册的用户,即可获得2000 credits。
什么概念呢?这相当于用户可以有机会完成1300万氨基酸Tokens的微调训练任务。
来看看究竟这个微观世界的基础模型到底是怎么一回事?
大模型时代下的生命语言解码
在第三届生物计算大会上,大模型是整场大会出现的关键词,而大模型在生命科学领域应用的范式,也成为各个领域专家的共识——
生命科学领域有着明显的特点,实验验证过的有标签的数据很贵很少,已有的数据又是不同场景,很难用来直接训练任务模型。但它却拥有着海量未标注数据,像基因组数据,蛋白质序列等,这些数据非常适合用来做预训练基础大模型。
大模型基于这些数据预训练之后,再结合少数标注过生物实验室数据,学习到对生命系统深层次表征,进而完成像蛋白质结构预测、基因序列分类等下游任务。
而百图生科xTrimo系列模型,正是其中最具代表性的范式实践。
此次大会上,百图生科xTrimo系列模型全面升级到V3版本,有着三大技术亮点值得关注。
首先从大模型基础属性维度来看,这是目前全球规模最大的生命科学基础大模型,总体参数规模达到了2100亿。
参数规模越大,意味着蕴含更广泛的知识和拥有更强的泛化能力,因此在各种关键问题和任务的解决上有更强的性能和准确性。
换句话说,大模型时代Scaling Laws,其实在生命科学领域也同样奏效。
截至目前,xTrimo基础大模型平台在200个任务模型达到SOTA水平,并利用这些任务模型实现了从头设计全新蛋白质、靶点发现等创新生物项目的突破。
该平台已助力开发了20余种前沿抗体和酶,实现10余个创新靶点及靶点组合的挖掘,并都经过实验验证,进入到临床前研发等后续阶段。
再从应用维度来看,此次基础大模型的发布是个模态全家桶,这是解决行业问题的新利器。
此次发布的xTrimo V3,覆盖DNA、RNA、蛋白质、细胞、小分子、生物视觉和生物知识文本等生命科学7个主流模态。
在上一版本已有蛋白质和细胞两大领域基础之上,拓展到了基因组学、转录组学、细胞复杂任务、影像分析和文本分析等领域,从而支持从分子早期研发到生产放大再到后期实验分析的全流程AI建模需求。
而除了实现整个探索过程的AI赋能,在一些场景下还会诞生全新的解决路径。这是因为多模态的覆盖,让大模型跨模态协作成为了可能。
百图生科技术副总裁张晓明列举了靶点发现这一例子。
现在在细胞尺度多模态大模型视角上,靶点发现也有了新探索,可以先对未扰动的细胞进行蛋白质和细胞的两种模态的表征,同时扰动action可以基于生物基因注释的文本模态生成扰动的编码,在图模型中预测扰动后表达量的变化以及推荐潜在的靶点,最后再通过细胞生物视觉的模型辅助做细胞功能的验证。
这是一个包括蛋白、细胞、文本和视觉四个模态的协作典型场景,在效果和效率上都有显著的提升。
而具体到各个模态的部署,我们也能看到很强的应用属性,为解决问题而生。
比如首个引入MoE架构的蛋白质大模型,参数达到千亿规模。
我们都知道,通用场景下MoE架构有利于垂直细分领域的处理,同样在蛋白质领域也存在这样的情况,比如像抗体抗原、蛋白酶等,这样一来在各种具体下游任务下,实现更好的性能和准确率。
还有像DNA大模型序列长度跃升至128K,可以更好的捕获远端调控信息,实现了超长序列解码生命的可能性。
这有点类似于通用大模型具备了长文本读取能力,由此拓展了大模型能力的边界,更多场景得到释放,比如总结报告、故事创作,解放人们的生产力。
最后,再从整个行业生态来看,百图生科已经占好生命科学AI模型提供商这一生态位——
一边是专业严谨、有着自己独特语言的科学行业,还有大量的知识空间等待人类去探索。一边是价值逐渐明晰、势要重塑一切的大模型范式。百图生科要做的正是他们的连接器。
此次除了基础大模型的发布,他们还建设了个一站式模型平台,相当于生命科学领域的大模型基础设施。
训练端,他们给出生物多模态的统一训练框架,从跨模态预训练、到下游任务的微调都可以完成。
而在推理端,他们为该领域量身定制地打造了生物与AI融合的计算引擎。
这个值得说道说道。因为在我们日常大模型语境中,可能只需要针对AI模型本身进行推理优化,就能在性能和成本上取得很好的效果。但在生物计算实际应用场景中,模型运行20分钟,其中推理仅占1分钟,其余时间都用于执行生物计算工具。
因此要打造推理引擎,需要将生物HPC优化和AI模型推理优化都要兼顾到,以及让他们在流水线上并行运行起来。据介绍,这在多个场景实现十倍以上推理性能的提升。
此外,还配备了系列工具链:包含面向多种数据场景和用户需求的Model Builder模块,支持模型管理和组装的Model Hub模块,以及加速模型调用和物理计算的Model Booster模块等。
而基于过去四年行业探索经验,他们也系统梳理出了两大行业解决方案:药物研发、生物制造,为合作伙伴提供全方位的AI模型服务,加速大模型的应用。
以药物研发为例,他们就能客户定制化构建模型、也能支持像蛋白设计这样的服务。
比如他们就利用亲和力模型设计出多个亲和力梯度的抗体,并定制AND GATE算法,组合双抗实现靶向杀伤肿瘤细胞。通过高通量亲和力检测和 100+ 复杂构型双抗的表达与验证,最终交付了具有更佳治疗窗口的双抗。
过去四年间,百图生科的全球用户已积累超过300家,包括跨国药企、产业巨头、大型CRO、明星BioTech、科研机构等,总订单超20亿美元,可以说初步完成了技术和商业验证的闭环,实现产业的初步积累。
如今有了强大的基础模型底座,他们的目标行业也指向了更广泛的领域,包括生物医药、生物制造、科研教育等。
这其实也是百图生科选择这一生态位的具象展现,那就是链接起更多的生态伙伴参与到大模型应用的进程中。
如今生命科学领域大模型正在加速落地应用,但与此同时挑战也同样艰巨,需要生态伙伴携手来解决。
CEO刘维就举了个例子,其数字化和智能化在很多方面尚未实现。诸多研发工作仍然主要以所见即所得的方式进行——
仍然以专家经验和人类先验假设为基础进行实验验证假设,或者以在自然界中发现然后进行实验改造为主。
而只有越来越多的企业完成大模型的赋能,才能带动整个行业的数字化智能化。
Foundation Model+Science正在到来
借着百图生科生命科学基础大模型的发布,也是时候对「大模型如何赋能生命科学领域」做个阶段性梳理。
首先,跟其他行业一样,生命科学领域正迎来全行业的重塑,甚至比其他领域更快。
仅过去一年时间,传统药企巨头拥抱AI,像辉瑞、礼来等全球药企巨头任命首席AI官;科技巨头纷纷出手布局,诸如谷歌Meta英伟达也早已相关探索。还有像赛诺菲,这种全球TOP10药企愿意砸超10亿美金与百图生科共同打造AI模型。
各种生命科学大模型也纷纷被顶刊所接收,比如像百图生科此前发布的单细胞大模型、千亿参数蛋白大模型等工作就多次登上Nature子刊封面和学术顶会。相较于其他领域,这么一个古老的领域的发展速度,直接来了个弯道超车。
而从时间维度来看,计算对生命科学的赋能,经历从单模态单尺度到多模态多尺度的赋能。而在大模型语境下,就是从“AI+”到“大模型+”的时代,如今AI在生命科学里的创新应用正在迎来「寒武纪爆发」临界点。
一切以AlphaFold为节点。
传统依靠实验室工具和分析手段的方式,价格高昂耗时也长,无法充分发挥数据背后的价值。
随着AI深度学习的出现,这个问题迎来了转机。DeepMind从人类已确定的17万种蛋白质序列库中训练学习得到AlphaFold,实现了之前远超其他所有团队的准确率,开辟了“先假设-再验证-最后优化假设”的干湿实验循环闭环。
这时候,生命科学领域迎来了他们自己的AI1.0时刻。
不过当时还只是聚焦于单链蛋白质单一模态,预测准确率还有大量的提升空间,海量的生物数据还没有被充分挖掘。
而随着自监督范式Transformer架构、扩散模型等进展的出现,让海量各种模态的数据处理、跨模态多尺度协作处理成为了可能,更多潜在的下游场景被实现,也就是所谓AI2.0时刻。
就像最新的AlphaFold3,实现了从单链蛋白质结构预测到所有生命分子的结构和相互作用的跨越。
其次,大模型赋能生命科学不仅在降本增效,还在于创新创造。
大模型对千行百业的赋能核心就在于降本增效,同样在生命科学领域,大模型可以快速处理和分析大量的生物数据,帮助科研人员更高效地筛选潜在药物靶点、设计药物分子以及预测药物效果,从而在一定程度上降低研发成本、提高研发效率。
不过这只是大模型所带来的最基本价值。创新创造才是大模型赋能生命科学的核心价值。
生命科学的技术壁垒很大程度上源于生命本质信息的高度复杂性,而这些信息往往隐藏在生命语言中。因此相比于常规自然语言模型,生命科学大模型往往肩负着更为重大的使命,那就是深入到生物进化、基因序列等生命领域的核心挑战。大模型就是像是一把钥匙,打开了一扇通往生命奥秘深处的新大门。
而一旦实现生物数据和序列的解码,就给当前一些重大难题的解决带来了可能性。比如精准医疗/个性化医疗。
而在基因组学、遗传病预测和精准医疗等领域,信息的准确性至关重要。但传统的方法常常将DNA切割成较小的片段进行分析,导致关键信息的丢失。
但现在百图生科模型所实现的DNA超长序列,就能完整保留所有基因信息。这让精准的基因分析成为可能,有助于制定出最适合患者个体的治疗方案。
例如,在癌症治疗中,完整的基因序列信息可以帮助确定癌细胞中特定的基因突变,从而为靶向治疗提供精确的靶点,提高治疗效果。
大模型带来的除了数据处理能力,还有强大的泛化能力,给行业问题解决带来全新的思路。
生命语言远比自然语言复杂,模态之间存在清晰的转化和层级关系。比如DNA、RNA、蛋白质之间的中心法则;细胞图像,细胞组学,细胞基因表达,功能注释文本之间对于细胞的联合表征;从单细胞、多细胞到构成组织。
因此大模型能做的就不仅对现有生物数据的简单解析,更重要的是能够推断未知问题。
比如预测生物结构背后的功能——
可以预测某种新型蛋白质的功能,进而为设计全新的药物或者生物技术提供可能,而这是传统研究方法很难做到的创新突破。
还有像药物发现,以往的研发可能更多地依赖于既有经验和有限的实验结果,但大模型可以通过对大量生命数据的学习和分析,提出以前未曾想到的药物靶点或者研发方向。
而拥有了预见生命科学未知领域的 “慧眼”之后,也就为合成生物学,或者更为广泛的生物制造,带来了可能性。
比如在酶的设计和菌种改造方面,AI模型通过学习现有的生物数据,生成新的酶序列,并预测其催化功能。通过这种方式加速了生物制造中的酶催化过程,显著提高了生产效率,并降低了制造成本。
再往前一步,整个工业制造领域,包括农业、食品、化工、材料、能源等行业都能被赋能覆盖。
从理解生命到预测生命再到设计、创造生命,这也是大模型为生命科学带来创新创造价值的重要体现。
它从根本上改变了生命科学的研究路径和思维方式,推动生命科学朝着更深入、更具前瞻性的方向发展。
相对于其他行业,在生命科学领域的应用价值更大、前景更高,也就更是一件长期主义的事情了。
这需要生态合作,共同推动产业发展。更需要像百图生科这样的玩家站出来提供基础服务。
现在,百图生科,迈出了第一步。