【佳作评介】浅谈面向人工智能领域的科普创作———《爱犯错的智能体》创作手记

随着深度学习的兴起,人工智能在众多领域都有了突破,并有了实用级的应用,如人脸识别系统已经布置于高铁、机场,2016年AlphaGo战胜了围棋世界冠军。2023年,OpenAI公司的大语言模型ChatGPT在聊天能力上变得更像人类,Midjourney公司的绘画软件已经能画得与人类媲美,Meta公司的分割任意模型SAM几乎解决了长期困扰图像处理领域科研人员的图像分割难题。一时间,人们担心人工智能是否会超越人类,而这种担忧从AlphaGo开始,似乎就有愈演愈烈的趋势。另外,人工智能本身的研究发展在往大模型、大数据、大算力的方向快速前进。由于人类经历过两个人工智能低谷,每个低谷的前夜都是人工智能的快速发展。所以,我们不禁要思考,人工智能的方向是否准确?人工智能还有哪些难题尚未解决?

实际上,这些疑虑在大模型盛行之前就已经出现。

2018年,在《科技日报》的一篇采访报道中,我利用《射雕英雄传》里周伯通的左右互搏术科普了生成对抗网的原理。随后不久,又用长寿在个性和统计上的差异分析了深度网络预测性能卓越的原因。在此之后,我又在科学网撰写了一系列关于现有人工智能难以解决的问题的文章。我将自己2018年以后发表在科学网的系列科普文章汇集成册后,2019年于清华大学出版社出版了《爱犯错的智能体》一书。本书的目的是希望能利用一线科技工技者的经验,科普人工智能的现状、不足及思考,也期望它能激发相关科技工作者和人工智能爱好者的兴趣。

以书名为引:深埋人工智能发展的新线索

这本书取名《爱犯错的智能体》的用意,与人工智能的预测性能近年表现优异有关,尤其是在大数据、大模型、大算力基本成为提升各种人工智能相关任务预测能力的共识的情况下。然而,预测性能只反映了人工智能研究的其中一个目标,并非全部。那么,通过对预测性能表现强的反向思考,我发现预测性能与可解释性之间存在矛盾。

如果需要进一步提升预测性能,那么就不必考虑统计意义上的平均预测性能,只关注个体的优异表现同样可以达到目的。但如果过分关注个性,就会损失统计意义,而统计意义却是保证可解释性的根源。因此,预测性能与可解释性之间必然存在矛盾。要保证鱼与熊掌兼得,则需要在两者之间进行折中。再进一步思考,在人工智能做得异常好的应用上,人类实际上达不到如此好的性能,甚至容易犯错。比如人脸识别,人类是不可能像人工智能一样能记住上千万甚至上亿的人脸的。围棋也是,人类一生也不可能对弈3000万棋局,但机器可以。

但为什么反而见不到人工智能能全方位超越人类呢?这自然引出一个问题,人类犯错的意义在哪里?是否可以减少犯错,来获得与人工智能一样强的预测能力?从我的理解来看,答案是否定的,正如人类常说的话一样,失败是成功之母。有了犯错,才有利于智能的演化。

因此,本书取名为《爱犯错的智能体》,正是希望能把各种犯错的机制与智能的关系找出来,并期望读者能从中发现未来能促进人工智能发展的新线索。除此以外,它的英文名明确表明了这层含义,即

以感官为分类:直观呈现人工智能的犯错机制

要分析人的犯错机制,可以从多个层面展开。但与人工智能最直接相关的,是人类的感官。其中,视觉是我们和多数动物探索世界的主要感觉器官,据说人类对环境的感知80%以上源自视觉。但正因为如此,它又是人类最容易形成错误感知的地方,也是存在大量未解问题的地方。比如视觉倒像问题,在什么时候、什么地方将眼睛看到的目标,通过眼睛内晶状体的光学凸透镜形成的倒像纠正成正像。又比如视觉恒常性引起的对衣服颜色的判断及同时对比现象;视觉中枢对目标的感知、记忆模型的不同理解。从这些问题中,通过搜索文献,我总结了大量的犯错机制,以及它可能隐含的、与人工智能相关的科学问题,如流形学习、格式塔心理学、原型说,等等。

其次,人容易产生错觉的地方在听觉。比如麦格克效应,是人同时利用视觉和听觉来帮助判断声音内容时的有效机制。当视觉被误导时,听觉也有可能被同时误导。不仅如此,由于语音发音的有限性,也会导致错听或误读。同时,人类能在鸡尾酒会中轻松分辨出想要听的人的声音,反而机器很困难。这种“鸡尾酒会问题”也引发了盲源分离的研究。

再者,在自然语言理解中,也存在大量有趣的语言现象,如回文诗,看字形猜诗词等。语言的背后深藏着有趣的科学问题,如学习的次序、语言的多义性、局部与整体认知,等等。

另外,人类的梦境、顿悟、情感、群体智能等都有值得挖掘的内容。

概言之,本书的编排是从视觉开始,再过渡到听觉、认知、群体认知等高级能力。希望通过分析各个层面可能犯的错误,让读者更直观地了解人工智能。

创作初衷:激发大众对人工智能的兴趣

《爱犯错的智能体》是一本科普书。从我对科普书浅薄的理解,以往的科普主要定位于传授已知,即将已经成为事实的知识传授给大众。但作为一线科技工作者,我认为人工智能仍存在的大量问题和未曾探索过的领域更值得关注,因为它一方面可以激发读者的主动思考,另一方面也能让读者有一个辩证的思考,不是一味地以为人工智能无所不能,而能更为科学地看待人工智能的发展情况。

从这个角度出发,我在撰写本书时引入了很多个人的思考,如总结部分,我提出了“平衡智能”的观点。我也期望读者能从中发现一些有趣的现象,甚至迸发出新的想法、观点。我还期望一些青少年读者,能够通过阅读本书,激发起对人工智能的兴趣,以至于未来有可能走上研究人工智能的科研道路。

如果今后真有哪位人工智能科研人员,说是小时候因为看了《爱犯错的智能体》才走上本领域的研究道路的,那么,这本书就物超所值了。而如果从更一般的角度来看,如果本书能让普通大众更为清醒地了解人工智能的现状、局限及未来可能的发展,那也能对提高全民科学素养起到一定的推动作用。

内容书写:严谨性与可读性的平衡

作为科研人员,难免会担心自己讲错科学内容。以前有个笑话,说科研人员如果在电视上讲错一句话,就会得罪一批同行朋友。所以,做科普得非常小心,尤其不能把一些常识性的错误带给读者。除此以外,也必须避免将一些伪科学的知识传递给读者。更有意义的是,一线科技工作者可以将更为前沿科技的进展介绍给读者。

然而,这里需要注意的是,如何增强科学内容的可读性。现今的科研环境,科研方向已经非常细分,多数科技工作者熟悉的往往是自己钻研的具体研究方向。科技论文的写作也比较“八股文”化,而且科技论文排斥轻松活泼的写法,那样会导致论文过于主观化。这两点对于科普来说,实际上会造成不小的障碍。因为科普常需要通过大众熟悉的事物来侧面了解前沿科技,但如果科研人员没有相对宽广的知识面,那很有可能不知道如何下手,容易把科普写成大家看不懂的科技论文。

另外,人工智能里的很多内容是有严格的公式来表述的。但《时间简史》一书的编辑曾对霍金说过,科普书里每多一个公式,就少一半读者。所以,本书中,我将需要用公式表述的内容,通过借用生活中常见的现象,更直观地解释了。这样,也能有利于大众的理解和对知识的消化吸收。

科普需要生动有趣活泼。在本书中,我通过大量的比拟来介绍一些相对困难的人工智能问题。比如自举,是机器学习的常用算法之一。我就讲一个人骑马陷入沼泽中,通过用手抓住自己头发将自己和马一起拔出沼泽的故事,来让读者形象理解其中的道理。再比如个性与共性在预测能力上的差异,我通过116岁长寿老奶奶喝可乐的故事,来科普深度学习有可能能通过个性化的模型训练来获得优异的性能。

不仅如此,我在文字组织中,也适当地引入了幽默感,以便读者能更为轻松愉快地阅读本书。

值得指出的是,人工智能多数成果源于国外。但从国外的角度来介绍,大众可能会有一定的疏远感。为了增强中国特色,拉近读者的距离感,我也引入了不少中国元素的故事,比如利用林语堂的《口技》介绍人工智能里音源分离的困难。

而为了增强行文的逻辑性,每篇文章的写作都是在长思以后才完成的,并非是为了凑字数而写。有的时候,因为找不到写作的冲动或灵感,我会去室外慢跑,期望通过多巴胺的释放,来获得好的构思。幸运的是,这种策略常常奏效。

总的来说,《爱犯错的智能体》是我通过一个又一个的自我设问,再根据问题进行相应的人工智能前沿进展的调研,通过科普化的构思并结合中国特色元素而完成的。该书中隐含了大量人工智能里悬而未决的科学问题,等待有志于人工智能事业的读者去探索和解决。该书中包含的人工智能知识点,我自认为是相当密集的。尽管书的页数并不多,但读者阅读之后,可以充分了解人工智能的全貌。

作者简介:

张军平,复旦大学计算机科学技术学院教授。

来源 / 我们如何书写科学:第六届、第七届中国科普作家协会优秀科普作品奖获奖图书佳作评介

排版:沈 丹

编辑:林雪琪

审定:李红林