奔腾思潮》ChatGPT与历史文化保存有什么关系?(阙志克)

大型语言模型技术则可将历史文化保存推向一个前所未有的第三级境界。(图/路透社)

ChatGPT的底层技术叫大型语言模型(LLM: large language model),这种模型骨子里试图掌握文字接龙般预测下一个字的能力:给定一段前文,预测下一个字或建立下一个字所形成的机率分布。譬如说,如果前文是「中国大陆最长的河流是什么?」,它最有可能的下一个字是「长」;如果前文是「中国大陆最长的河流是什么?长」,则它最有可能的下一个字是「江」。训练LLM所需的语料无需标注,所以很容易取得。假设前文的长度是100字,一篇5000字文章可作成约4950组训练语料:第一组以1-100字为输入,第101字为输出;第一组以2-101字为输入,第102字为输出,以此类推。

这些语料喂进称为Transformer的深度神经网路架构,可训练出大型语言模型。而且,只要语料越丰富,网路架构参数越多,前文长度越长,训练出来的大型语言模型所具有的自然语言处理能力就越强。目前已知的功能包括摘要、问答、翻译、分类、情境分析、规画、设计等;甚至,这些模型还具有举一反三的能力:只要在提示里提用几个例子说明特定的概念,它们就能将例子所隐含的概念应用到后续的回应中。

从知识管理的角度的观点,大型语言模型已经具备以下三种能力。其一,将一篇文章里面的重点与关键思想摘要出来;再者,从多篇探讨相同议题的文章中,抽取它们所提出的观点或解决方法,并比较其优劣和权衡焦点;最后,根据已经提出的解决提案,借由内外插的手段产出混搭既有方案的新颖解决方法。这三种能力结合起来,表示大型语言模型已具有将大量专业文章自动内化成可让用户以自然语言查询、探索与脑力激荡的知识库。当然,尽管以上这些能力在目前最先进的大语言模型都已达一定的水准,但也都还有改进的空间。

历史文化保存的一大重点是历代文字的收集、整理与传播。第一级的历史文化保存聚焦于实体文物的收集、修复与妥善保管于专业博物馆,重点放在尽可能保持历史文物的原状。第二级的历史文化保存进展到数位典藏:首先将历史文物数位化,再运用现代资料库技术将其分门别类、建立索引,以便后人易于搜寻、阅览和欣赏,重点放在以数位方式增进民众接触历史文物的方便性。

上述两类保存方式都只是被动地保存历史文物的既有风貌,大型语言模型技术则可将历史文化保存推向一个前所未有的第三级境界:主动分析消化所有历史文物的文字内容,积极找出它们在时间与空间轴上的语意关联性,进而将其所涵历史资讯组装成互相援引的关联网路,最终形成包罗万象、旁征博引、交叉勾稽串联的知识库,让后人得以超越个别文本,轻易地进行之前需要皓首穷经、旷日废时才能作到的跨代、跨领域、跨文本的查询、连结、比对与推理论证。

这种将历代文籍整理消化、融会贯通过后的知识库让后世可以轻易地对如下的历史疑问旁敲侧击、追根究底:孔子问过老子什么问题?老子的回答对后世儒教有何影响?李白有提点过杜甫吗?杜甫的诗风有因此改变吗?中国历史上有名的犹太裔人物为何?他们对犹太教徒逐渐被中国文化同化持什么态度?徐福到底有没有到过日本?郑和的回教徒背景与他能成为七下南洋的世界级航海家有啥关系?也就是说,大型语言模型技术借由积极梳理所有历史文字,广泛连结相关历史资讯,因而大大丰富扩展了原来历史典籍的文化深度与广度。

除了协助解析历史文物的来龙去脉与文化意涵以外,历史文化保存的最高境界应是提炼萃取用于制作文化遗产的底层技能(skill),并将这些技能代代传承下去。譬如说,保存唐诗的最高境界不仅是让后人能理解它们的寓意或欣赏它们的艺术美感,还可以是进一步主动撷取唐代诗人的各种作诗技巧,进而运用这些技巧创作出格式相同、质地类似,但情境可随后人任意指定的现代唐诗。只要有足够的唐诗及其白话文语译作为语料,现代大型语言模型很有机会借由精调训练锻炼成可以媲美李白杜甫的机器诗人。

同样的手法也可以应用于其他艺术形式,如李清照的宋词、关汉卿的元曲,张大千的泼墨画、颜真卿的书法、朱铭的木雕,甚至莫札特的古典乐等。一旦如上所述的大型语言模型成功开发出来,它们不但将带给历史文化保存翻天覆地的变化,也将开创无际蓝海的商业新契机!(作者为清华大学合聘教授)

※以上言论不代表旺中媒体集团立场※