百图生科CEO刘维:生命科学AI大模型,开启创新药物研发新范式

作者|闫妍

出品|本站科技《潮头》栏目

生命科学领域正在迎来新故事。

就像ChatGPT打开了人机对话的窗口,一批生命科学AI大模型也在开发的路上,甚至已经有人打响了落地第一枪,或将为行业带来革命性的变化。

“我们在通过大模型尽量地学习生物进化规律,有点像在数字世界不断重启地球,希望从中找到对人类有益的新东西,填补复杂行业问题与前沿算法之间的关键空白地带,为科研、环保、材料、消费等领域提供解决方案。”百图生科CEO刘维告诉本站科技《潮头》栏目。

简单来说,他们在打造一个能生成蛋白质的ChatGPT,探索人类进化过程中蛋白质组合的各种可能性,根据用户给定的参数和功能,以生成的方式,设计创新的蛋白质(抗体、酶等)、细胞等设计方案,来回答各种生命科学问题。

2020年,百度集团创始人李彦宏和时任百度风投CEO的刘维,决定联合创办百图生科。2021年,百图生科构建了世界最大规模的免疫图谱,并做出了千亿参数规模的大模型“xTrimo”,这是全球首个、也是目前最大的生命科学领域的“超大规模多模态模型体系”。后来,基于该模型研发了用户交互窗口AIGP平台(AI Generated Protein,AI生成蛋白质平台),AIGP在2022年开始内部使用,2023年宣布扩大内测范围,目前合作伙伴已超20家,今年有望扩展到50家左右。

在刘维看来,尤其在承担着人类生命健康使命的新药研发行业中,大模型的社会价值和行业价值极高。

核心点在于,它能够帮助研究者节约大量的实验时间和实验费用。“全球范围每年要花费几千亿美金在临床试验上,仅一轮动物实验就要花费几月时间、几百万成本,有的企业花费几年时间围绕着一个靶点来研发一款药物,但到最后关头前功尽弃,这种行业格局使得大家都在苦行僧之路上长期前行。”刘维讲。

在他看来,大部分的药物研发往往只够针对单个靶点,这是整个行业低效的源头问题。“有很多失败是一开始就埋下的,前期参数就存在了问题,未来在foundation model驱动下,很快就能根据已有参数涌现出答案,这对于从0到1的创新发现,可能提高的是很多年的效率。”

刘维告诉《潮头》栏目,AI技术应用在生命科学领域的最终价值,是帮助解码、治愈所有的疾病,解决当下难以应对的全球公共健康问题。

奇点将至

生物计算加速“进化树”

《潮头》:两年前,百图生科开始布局大模型“xTrimo",当时决定要做这件事的契机是什么?

刘维:其实BioMap这个公司名字也跟大模型很有关系,当然它没有叫“Bio大模型”,而是叫了“Map”这个名字,实际上公司创立之初就希望,围绕着难成药靶点全新蛋白等实验筛选手段筛不出来的领域,利用大模型对于弱关联语料的处理能力,从海量的生物数据里面提取对科研人员有意义的规律,为行业提供更好的生物地图(BioMap)。

2020年底,我和Robin为什么决定要做这家公司?其一个核心判断就是看到OpenAI开发了GPT-3,人类的第一个千亿参数大模型出现,这种技术的跃升,让我们看到了做垂类大模型更大的潜力,这也是我们决定要成立这家公司的原因之一。公司最早的时候有张计划图,左边写的就是预训练大模型,右边写的是若干个任务模型。

《潮头》:大模型可以切入的方向有很多,你们为什么选择了生命科学这个场景?

刘维:我认为大模型的核心优势,可以从它的入口和出口去判断,它的入口需要比较大量的弱关联数据,出口需要找到适合大模型去做缺乏任务数据的场景。满足入口、出口这两个约束条件之后,大模型就在这个应用场景内变得更有用武之地。否则,如果没有大量前端的弱关联数据,大模型无从训起。或者相反,如果任务数据已经比较丰富了,实际上也不需要大模型,用传统的AI模型也能做。

我们去做这家公司,恰好配合了这么一个时间点,海量的生物数据开始出现,但是它还没有被整理好,不够高质量,也不够任务相关,这个时候如果谁能够先用一种新技术把它们利用起来,谁能用一个技术平台把它们汇聚起来,在海量的数据里找出规律,用来解决缺乏数据的特定问题,我们觉得就能够批量化地解决很多创新药物或者生命科学项目研发的挑战。

《潮头》:当时希望“xTrimo"具备怎样的能力?目前又实现了多少?

刘维:大模型的核心就是生成、涌现,而且这种涌现是低成本、高泛化能力、高场景适应性的。我们当时写下的第一个任务,是希望解决免疫领域中复杂规律的一系列小任务。但这两年,我们发现大模型在泛化的蛋白和细胞任务上的表现比想象中更好。从免疫高性能抗体起步,到其他非免疫领域的高性能抗体,再到药物领域中用到的其他蛋白质,大模型对这些问题的预测、生成是有泛化能力的,已经可以通过技术去摘取一些“果实”。

今年,我们还有一个很大的发现,酶作为一类蛋白质,大模型对它们的能力也很突出,所以我们正在研究跟石油有关的酶,跟环保有关的酶等等。背后意义在于,油井里的酶可以促进有机物更好地凝固,环保场景下酶可以促进塑料更快降解,以及工业催化、酿酒等行业都需要各种各样更好的酶,但这些酶在传统自然界中还没有进化出来,小改进也改不出来,没有生成能力就很难做出全新的设计。

我们希望通过大模型设计全新的蛋白质药物、全新的酶,有点像是在加速“进化树”,以前生物学的发现大多是靠在自然界去“捞”,现在更像是将潜在的蛋白质构成视作一个巨大的模型,可以在数万亿倍的增量空间去探索人类进化过程中,蛋白质组合的各种可能性,释放更多未知领域的潜力。

《潮头》:AI大模型需要计算资源,数据集深度学习框架,语料库等多项能力的支撑。

但很多医药企业对于数据保护格外慎重,生物数据的缺乏,是否对大模型的训练带来挑战?

刘维:如果我们只看强关联数据,它一定是稀缺的。不仅是我们这样的公司缺,大的药企也缺。我们今天跟很多大药企去合作,会发现其实数据没有想象中的那么多。

背后原因很简单,一是生物实验的方法,本身能产生的数据就很有限;二是以往的药物发现大多以真实物理世界筛选为主,以动物实验作为验证主体,实验中常见的是只去记录好的、良性结果的数据,而被筛出去的不成功产物,这些数据则没有被记录,不成功不一定意义等于0,可能是0.2、0.3、0.4,但很多高质量的数据其实被丢掉了;三是药企可能产生过很多数据,但是他们又积累了多少呢?因为这些数据的存储、整理都是很高的成本。所以,药企并没有想象中的那么多数据,就算有一些,也远远不足以做大模型。

《潮头》:那么在数据缺口问题上,你的解决办法是什么?

刘维:我们最后在北京、苏州两地,各建了上万平的高通量实验室,原因其实就是很多行业的数据采集技术和标准,并不符合AI需求。我们自己建立实验室,目标就是要去重新塑造这样的流程和技术标准,并且把它反推给行业。

但是我们更核心的解决方案是更AI化的,我们希望聚合公开数据实现海量的语料为大模型所用。在数据话题上,其实生命科学比起其他行业有个优势,出于行业监管的原因,这个领域有极为大量的科学研究数据必须公布,比如临床数据、药物实验结果等等,科学论文更是非常活跃。我们现在已经构建了世界最大的一个生命科学数据集,万亿规模的数据图谱,这也是两年多来做出的一个比较大的投入,里面纳入了来自2亿篇论文,超1亿篇专利,几百万篇类似于FDA报告的专业文档,以及几千个不同的数据库的数据,这种体量的行业数据是任何一家企业远远无法积累到的,而这些数据的获取,处理,数据工程又构成了非常深的护城河。

《潮头》:在你看来,生命科学AI大模型将如何帮助行业降本增效?

刘维:一个在于降本,以往的药物发现大多以动物实验作为验证主体,一轮动物实验要花费几个月的时间、几百万的成本,现在可以直接通过大模型生成预测,前面的实验环节会大大节约(成本)。

还有一个在于提效,全球范围每年可能要花费几千亿美金在临床试验里,但其实很多都是在浪费,因为后面的失败概率很高。比如,有很多失败是一开始就埋下的,前期参数就存在问题,越拖到后面造成的成本损耗越大。未来,在foundation model驱动下,后面明知会失败的事情,前面这些环节就不要做了。这对于从0到1的创新发现,可能提高的是很多年的效率。

聚焦人才

组建一支真正与国际接轨的团队

《潮头》:中国的通用大模型整体发展落后于美国,但令人意外的是,百图生科做出了生命科学领域最大的模型,而且是最领先的,这是为什么?

刘维:我们做得够早,从2020年开始做这个事,在整个行业里,无论是做生命科学的foundation model,还是作为一家独立公司做foundation model,2020年都是很早的。其次,我们还很快,这个“快”体现在万亿规模的数据图谱构建,我们利用了中国非常好的工程优势,我觉得在中国可能比美国要快10倍。

《潮头》:怎么讲?为什么能比美国快10倍?

刘维:在数据图谱的构建过程中,其实有大量的数据工程工作,大量的工具开发工作,背后都回归到了人的努力程度,跟人员的成本和工程的组织效率息息相关。例如,数据标记工作,我们高峰期大概有上百人的专业团队专门在做,还有几百人的兼职。

同样是疫情造成进出办公室不便,我们在国内很多同事仍然坚持在实验室里,而美国有的公司长期work from home直到现在还没有恢复。当然,美国有它的创意、创新优势,但涉及到大的系统工程的执行问题,这就是我们见长的方向了。这也是我们一直希望能够发挥全球化的优势,即便前两年疫情的原因,地缘政治的原因,都带来很多的挑战和代价,但我们还是坚持这么做,原因很简单,我还是相信在前沿科技领域大家需要全球化合作,也只有合作才能把市场上各种有效要素组织起来,去做一个前沿突破型的公司。

《潮头》:在生命科学这个领域里,国内不管是科研能力还是论文数量,距离世界顶级水平都还存在差距。这种背景下,要如何保持技术先进性和高水平的研究能力,做到与国际顶级水平接轨?

刘维:我认为这点恰恰是我们比较有优势的。在公司创立之初,我们就希望这是一家真正国际化的企业,一开始就在硅谷和中国两地设立了团队进行运营。从人的角度来讲,我们创始团队一直真正在全球领域去做前沿投资,无论是在AI领域,还是在生物领域,我们在美国投了非常多主流的AI和生命科学项目,使得我们有人脉,能够组建这样一支真正与国际接轨的团队。

正因此,我们当年开始做这家公司的时候,就找来了一些足够全球影响力的团队成员,和更多的像Robert·Gentleman这样的核心科学顾问,他是R语言的发明人,现任哈佛医学院计算生物医学中心创始主任,这种global背景人才的团队组合,使得我们能够设计面向未来的架构,构建起这样大规模的数据。

《潮头》:2020年,你已经在硅谷看到了OpenAI这样公司的出现,但不管是大模型还是ChatGPT,这些信息传导到中国好像慢了很大一拍,今年初不少投资人面临大模型热还有些措手不及。为什么会出现这种状况?

刘维:我觉得这几年慢是很明显的,以前非常频繁的交流和人才回流,这些年基本停下来了。以前我们做投资的时候,会发现很多华人在美国做到一定位置之后,他可能想要创业,不少人愿意回到中国看机会,自然就带回了很多比较新的东西。

但这几年,各种变化纠缠在一起,这种力量在减弱。现在美国大模型也很热,但不是今年才开始热,而是过去几年一直有热度。今天,美国更关注的是做专业垂类的foundation model,不是在垂类里用GPT写小作文,而是垂类里头的foundation model或者next generation foundation model。但在中国,很多人还是在“卷”GPT的copy cat。

《潮头》:现在有一股大模型扎堆创业的热潮,不断有新的挑战者入局,每个大厂似乎都要去做一个自己的大模型,你怎样看待这波创业潮?什么样的团队或产品才能走到最后?

刘维:首先说做foundation model这个角度,第一个活下去的要素是,你真的在做foundation model。我个人觉得,今天市场上还很多是在蹭热点,有人说我在做大模型,但人家没说是做千亿参数的大模型,没说是自己架构的基础模型,只是一个“大”的标签,可能还是原来的AI。说实话,去做大模型,搞大模型训练,是很高的门槛。一个真正千亿参数的大模型,至少得有几千块卡的资源和算法工程能力,要有万亿token的独特语料,不然就不能训练大模型。把各种泡沫都撇掉之后,谁是真实去做这个东西的,大家心里有数。

第二个问题是,在战略上有没有合理路径,能付得起大模型的成本。互联网大厂去做大模型,在算力、数据、应用场景上,有先天的优势。初创公司做这件事,如果你做的这个领域并不稀缺,或者说已经有很多竞争了,那么你还能不能得到合作的机会?

第三个,能不能构建一个多元化的人才战略。我觉得大模型真正的竞争门槛在于多元化人才,这是个很系统的工程,是跨模态的。比如我们有的人要懂蛋白,有的人要懂细胞,有的人要懂算法工程,有人要懂如何拿大模型的输出去真的做药而不只是发个论文,在这么复杂的机理里面,每一层都要找到合适的人才,能不能吸引这么一个多元化的团队愿意一起干,这个也很重要。

商业化提速

专注“Model as a Service”

《潮头》:目前公司的主要合作伙伴有哪些?

刘维:合作伙伴基本上两类,但是大家目的都是一样的,都是想做成创新的项目。一类是大型的药企、大型的石油公司、大型的工业公司,这部分可能短期的付费能力更强,他们可能上来就愿意出钱,能付成百上千万美金的费用,来调用我们的任务模型或者大模型。

另一类是研究中心、中小型公司以及高校著名的实验室,这部分可能不涉及短期给我们付费,但大家可以共同投入,分享未来收益,这些伙伴的魅力在于,他们有非常多的前沿研究和数据。这都是我们需要的,今天任何一个合作伙伴的数据都不够多,但数据飞轮把越来越多伙伴联合起来,可以创造显著的数据价值。

《潮头》:在商业模式上,你们的定位是和大模型公司一样,还是有一天也会去做垂直应用?

刘维:我们和其他大模型公司的逻辑是一样的,我们觉得是“Model as a Service”(MaaS,模型即服务)。我们当然自己也有能力把一些项目往后推,甚至直接去做临床等等,但是总要做一个选择,是把所有的精力放在去做一个具体的创新药上,还是这个平台围绕多个项目都能做出贡献,我们选择了后者。

原因也很简单,每一个创新项目往后走,行业纵深其实都很深,而在这些行业纵深里,一定都有些公司已经很有优势了,你为什么要重复他们的工作呢?从立场来看,又当裁判又当运动员,反而会错失更多优质合作。我们会利用大模型和任务模型设计很多具体的分子,但是会依靠不同伙伴来推动到后期阶段。

《潮头》:大模型的调用方法有哪些?

刘维:一个是合作伙伴来调用已有的任务模型做项目,这个过程中,合作伙伴或者给数据、或者给钱、或者给到项目权益。大家共同投入,也在帮我们迭代模型。

还有一类客户,他们有更创新的题目,已有任务模型无法满足,他们可以直接调用大模型,基于xTrimo开发和调优新的任务模型,这部分现在也是快速增长的需求,我们今年有几个大型交易,都跟这个方向有关。

《潮头》:过去很多云厂商想要撬动央国企,但发现想要让这些企业数据上云并不是件容易的事情,大家都很担心数据的安全性。国内这些大型药企会愿意把数据喂到你的大模型里吗?

刘维:这是挺好的话题,我觉得这里面核心有几层,一是生命科学行业整体上的开放程度要高得多,尤其在discovery(创新)阶段,因为这个阶段其实绝大部分数据来自于自然观测,他不是把成功的、值钱的数据给到我,而是把他们历史上不够成功的数据给我,但这些数据也很有价值,这些不够成功的数据留在他们自己手里,其实也做不出来什么,就没有价值了,所以整体上大家愿意做研发合作。你也要有实力去证明,能够利用他们这些有价值但不够完美的数据,真的把东西做出来。

其次,要感谢我们的技术实力,从技术角度讲,很多企业基于我们的大模型做的任务模型,不一定要把数据给到我,实际可以把数据放在他们自己的隔离域里,我们也提供了这样一种方案,方便他们调动大模型。因为这样的技术可行性,也使得他们并不是一定要把数据的所有权转移给我,但是我的模型也能得到这些数据的帮助。

《潮头》:比如电商平台判断产品成不成功,可以看GMV、营收、用户数据等都很直观。但大模型产业目前还处在非常早期的阶段,你对所推出的产品和服务,成与不成的判断标准是什么?

刘维:我们现在整体架构大概分为四层,第一层基座是AI大模型“xTrimo”;第二层是任务模型,我们基于大模型研发的多种任务模型构成的AIGP平台;第三层是利用任务模型针对行业/领域不同的项目,调用模型进行的分子设计项目,也就是真正的商业化;此外在大模型下其实还有一层是数据图谱,这四层是一个嵌套的关系,设计项目对任务模型,任务模型对大模型,大模型对数据,一层层的反馈和牵引提升。

这其实是一套工程体系,每一层环节我们都会定义不同的评测指标,企业的判断标准也随着发展阶段在变。两年前我们会在意数据图谱的规模指标,一年前是大模型的参数和性能,半年前任务模型的多个指标是冲刺目标,现在对于项目的完成度和商业化的总用户数、总收入和项目价值开始爬坡,一步步向前迭代。

《潮头》:两年前采访时,你讲到商业化并不是百图生科现阶段最核心的任务,主要还是专注于技术突破。现在再聊这个话题,今年你给公司制定商业化的目标了吗?

刘维:两年前我说先把数据做了,一年半前我们在解决大模型的技术突破,半年前我们在确保一些项目能够基于任务模型有一些进展,这个塔逐渐地往上,一层一层嵌套走到今天,今年我们开始爬这个塔尖,也就是商业化。

今年,我们提出了AIGP概念,也是吹响了商业化元年的号角。在此之前,我们其实有少量几家试验型的客户,现在则开始正式进入到客户拓展的周期。今年,我们实际上给自己有一个商业化的目标,但并不是绝对以收入为核心,它永远是一个平衡的事情,收入,项目价值,用户数量,领域分布,这个综合指标背后映射着当前的市场认可和未来的想象空间,对于一家大模型公司而言都必不可少。