李国杰院士 | 智能化科研要适当容忍“黑盒模型”

在大模型如雨后春笋、百模大战如火如荼的当下,人工智能技术(AI)正以前所未有的速度改变着我们的生活方式、工作模式乃至科研方法。从自动驾驶汽车到智能家居,从医疗诊断到金融分析,AI的触角已经深入社会的各个角落。然而,AI的潜力远不止于此,它在科研领域的应用正引领着一场前所未有的变革,被称为“智能化科研”或“第五科研范式”。

一、智能化科研(AI4R):科研范式的重大变革

在人类历史的长河中,科研范式经历了多次演变。从农业时代的观察和实验归纳(第一范式),到工业时代的理论分析和逻辑演绎(第二范式),再到信息时代的计算机模拟仿真(第三范式),以及互联网普及后的数据驱动科研(第四范式),每一次变革都极大地推动了科学的进步。如今,我们正迈向智能时代,智能化科研(AI4R)作为第五科研范式应运而生,它不仅融合了前几范式的精髓,更引入了人工智能这一强大工具,开启了科研的新篇章。智能化科研(AI4R)不仅仅是工具层面的变革,更是科研思维和方法论的全面升级。它利用人工智能技术,如深度学习、强化学习等,辅助甚至主导科研过程,从数据收集、模型构建到结果分析,实现科研效率和精度的双重提升。

二、科学智能(AI4S)与技术智能(AI4T):智能化科研(AI4R)的双轮驱动

在智能化科研(AI4R)的框架下,科学智能(AI4S)和技术智能(AI4T)是两个不可或缺的部分,共同推动着科研范式的变革。AI4S侧重于利用AI技术解决基础科学问题,将大量观察数据编码成符号化的规律或知识;而AI4T则更关注于技术发明和工程应用,将大量满足需求规范的样例解码成人造物的具体设计。如芯片设计、天气预报优化等。

近年来,智能化科研在智能科学与技术科学的双轮驱动下取得了突破性进展。例如,在智能科学方面,由DeepMind团队开发的AlphaFold系列模型已经成功预测了超过2亿个蛋白质的三维结构,为生物制药等领域的发展提供了重要支撑。在技术智能方面,AI技术可以在芯片设计领域自动生成高效的CPU架构,大大缩短设计周期;在材料科学可以帮助科学家们快速发现新型稳定材料,推动材料科学的创新发展。 这些成功案例表明,科学智能不仅能够解决基础科学问题,还能够渗透到技术研究甚至工程科学中,推动整个科研领域的智能化转型。 因此,在探讨科研方法创新时,我们不仅要关注AI在科学研究中的应用,还要高度重视AI在技术创新和工程实践中的潜力。

三、大语言模型(LLM)与大科学模型(LSM):智能化科研(AI4R)的模型选择

在智能化科研的实践中,大模型是不可或缺的工具。然而,对于大模型的选择和应用,我们需要有清晰的认识和合理的规划。 当前,国内学者普遍关注大语言模型(Large Language Model,LLM),这主要是受到ChatGPT等应用的影响,侧重于从海量数据中学习语言知识,实现文本、图像、语音的合成等多种功能。 其缺陷是知识主要来源于训练数据,缺乏对实践活动的隐性知识的理解。 相比之下,大科学模型(LSM)则更加关注科研领域的实际应用。 不仅需要考虑神经网络架构、机器学习算法等技术因素,还需要关注数据驱动和模型驱动的融合、科学伦理等多个方面。 例如,DeepMind团队在推进智能化科研过程中,采用了强化学习等方法,使机器本身也产生大量数据,从而提高了模型的适应性和准确性。 因此,在智能化科研中,我们不仅要关注大语言模型(LLM)的发展,更要重视大科学模型(LSM)的构建和应用。

四、计算模型的转变:实现智能化科研(AI4R)的突破口

1.算力不是万能的

人工智能的突破主要得益于大数据、大模型和大算力的结合。单纯提高算力并不是解决问题的万能药。实际上,人工智能的突破更多依赖于计算模型的转变。从基于逻辑的确定性计算模型转变为基于概率统计的神经网络模型,这一转变能极大提高AI处理复杂问题的能力。因此,重复开发许多没有新意的小模型,对推进人工智能作用不大。中国应当争取在基础模型上做出颠覆性的创新,为人工智能和智能化科研的发展做出历史性的贡献。

2.突破“复杂性阈值”系统问题

在科研领域,许多复杂问题具有“组合爆炸”的特点,即假设空间非常大,难以通过传统方法进行有效求解。例如,在药物研发方面,小分子候选药物的数量估计有1060种,可能成为稳定材料的总数多达10180种,在传统的研究方式中这种范围几乎是无穷大,而利用AI技术,可以对大量候选药物进行筛选和优化,大大提高研发效率。同时,通过海量数据的训练学习,可以学习到一些过去人类不知道的启发信息,提高复杂问题的解决能力。

此外,神经网络模型也值得关注。它拥有千亿甚至上万亿的参数,涉及的内容可能已接近能处理困难问题的复杂度阈值点。而突破了复杂度阈值的系统,就会由于在数据层的扩散和变异作用而不断进化,在处理一些不确定性和动态变化的问题时具有独特优势,进而可以解决一些个很困难的事情。这也是智能化科研的威力之一。

五、拥抱不确定性与黑盒模型的合理性

传统科研方法一般都追求精确解和最优解,但复杂问题往往具有不确定性和动态变化的特点,难以找到形式化的精确解答。智能化科研(AI4R)的实践表明,在不确定的环境中寻找最优解或近似解,满足科研的实际需求。放弃绝对性、拥抱不确定性是科研方法的重要转变。

此外,科学研究就是一个将“黑盒模型”逐步转化为“白盒模型”的过程,即从对某些现象或过程不了解逐步推进到充分理解其内部机制和原理。解决复杂度不高的问题时,我们已掌握其基本原理,因此更强调可解释性,尽可能采用白盒模型。但对于非常复杂的问题,一开始不可能有白盒模型,一定时期要适当容忍黑盒模型,承认其存在的合理性,才能有助于实际问题的解决。当然,在容忍黑盒模型的过程中,为了防止黑盒模型潜在的失控或可能出现的不良后果,要加强科技伦理监管,让智能化科研始终在安全可控的轨道上良性发展。

作者:李国杰,中国工程院院士、发展中国家科学院(TWAS)院士、中国科学院计算技术研究所首席科学家

本文转载自微信公众号科技导报,原载于《科技导报》2024年第10期

‍‍

| | | | | | | | | | | | | | | |更多精彩敬请期待

投稿邮箱: nais-research@cnais.org.cn