中新社东西问》唐诗宋词能否用大数据解读?(王兆鹏)

演员吟诵李白的《将进酒》。(中新社)

白居易诗作量位居唐代诗人之首,影响力却没进入前十;宋词名篇最多的不是苏轼、辛弃疾而是周邦彦;综合影响指数表明,杜甫高于李白、辛弃疾强于苏轼;张若虚《春江花月夜》、陆游《卜算子•咏梅》在近现代才开始受瞩目……用大数据来显示和验证唐诗宋词,结论超出很多人的想像。

唐诗宋词是中国文学史上的两座高峰,但属于美学范畴的唐诗宋词能否用大数据解读?大数据研究唐诗宋词取得了哪些新发现,又有什么局限?四川大学文科讲席教授、中国词学研究会会长王兆鹏近日接受中新社「东西问」独家专访,作出深度解读。

现将访谈实录摘要如下:

中新社记者:唐诗宋词是中国文学史上的两座高峰。从大数据看,唐诗宋词是否达到空前的高度?分别有什么特色?

王兆鹏:数据显示,唐诗宋词作家、作品量均达到了空前的高峰。目前流传下来的唐诗超过5万首,而东汉到隋末近600年的诗歌一共才5000余首。唐诗比之前的八代诗增加了7倍多,诗人由600余位增加到3000多家,诗人和诗作都达到了前所未有的量级。

宋词是中国词史上第一座高峰,有词人1497家、词作21085首。相较唐五代,词人词作都增加了10多倍。宋词用调近900种,在唐五代词的基础上增加了700余种。词调多,意味着词体的丰富。唐五代词人中唯温庭筠、冯延巳、李璟、李煜有词集传世,而宋代则有300多位词人有词集流传。词人有词集传世,意味著作品多、知名度高,社会需求量大。宋词之所以流传数量不如唐诗,其中一个重要原因在于宋词是通过口头传唱,相当于现在的流行歌曲。口头传唱的作品,好多已失传。

衡量文学发展,作品数量是一个重要方面,但最关键还是要有精品。要说中国历史上产生伟大诗人、词人最多的朝代,无疑是唐宋。虽然现有技术还难以准确衡量作品艺术价值的高低,但可以用大数据来衡量作品影响力的大小,分析出哪一首作品最受大众欢迎。

中新社记者:唐诗宋词属于美学的范畴,为什么想到用大数据分析唐诗宋词?

王兆鹏:给文学作品排座次、定甲乙,并不是今天才有的时尚,而是古已有之。最早给诗人区分品第等级的,是南朝梁代的钟嵘。他在《诗品》中将汉魏以来诗人分为上中下三品,以评量其优劣。唐代张为的《诗人主客图》,把中晚唐的部分诗人分为主、入室、升堂、及门等级别,也是一种品第批评。

在中国古代文学批评中,还常常见到称誉某人为第一、某诗为第一的。如《宋书•谢灵运传》说谢灵运「文章之美,与颜延之为江左第一」。宋人许𫖮《彦周诗话》说「孟浩然、王摩诘诗,自李杜而下,当为第一」。

不过,古人的诗学批评,无论是分品第,还是排座次,都是基于个人的主观好恶。由于每个人的审美趣尚不同,所以对同一个人、同一首作品,品评往往不一样。比如,金人元好问、赵秉文和王若虚都推许东坡词「起衰振靡,当为古今第一」,清代潘德舆却叫板不认同,认为「推奉太过」。

现代计量历史学可以用数据衡量历史,古代文学也属于大历史的范畴。既然历史可以计量,为什么文学不能计量?通过大数据,可以找到一个最大公约数,用模型来分析和衡定,得出相对客观的答案。

中新社记者:您的十大唐诗、宋词、诗人、词人排行榜如何得出?从大数据看,唐诗宋词里谁的作品最多?作品量多的诗人词人,是否影响力大、知名度高?

北京故宫博物院藏苏轼主题书画特展。(中新社)

王兆鹏:我们依据诗歌在历代选本中的入选频次、被历代诗论家品评的频次、被后人追和的频次和当代学者研究的频次、被网页著录及评论的频次等数据加权计算,确定一首诗的影响力,并将影响力位居前列的视为名篇。

现在已无法直接考察出在古代李白、杜甫的诗集有多少种、印数有多大,但可以计算杜甫和李白的诗集分别被刊刻了多少种。据此推算,在宋代,杜甫的影响力比李白大得多,有一种说法叫千家注杜,杜诗韩文是所有读书人的典范。

数据显示,唐代诗人综合影响力排名第一的是杜甫,其次为李白、王维。作品量第一的白居易,影响力排在十名之外。而宋词影响力位居第一的是辛弃疾,苏轼、周邦彦分别居第二、第三。

影响力大的诗人,拥有名篇也多。一百首唐诗名篇,杜甫独占16首,李白13首,王维和白居易均享12首。在三百首唐诗名篇中,杜甫豪取52首,占六分之一,李白有38首,王维和白居易共29首。在宋词百首名篇中,周邦彦夺得15首,辛弃疾获12首,苏轼10首,姜夔7首。扩大到三百首宋词名篇,周邦彦斩获40首,辛弃疾和苏轼各占23首,姜夔11首。宋诗百首名篇,苏轼一人占四分之一,比杜甫在唐诗中的名篇拥有率还高。

中新社记者:诗人张若虚以一首《春江花月夜》「孤篇盖全唐」,但他只有两首诗流传下来。对于这样的诗人,能用大数据分析吗?未来会可否用大数据分析外国诗歌?

王兆鹏:现在大家熟悉的陈子昂的《登幽州台歌》,以及张若虚的《春江花月夜》,其影响力是到20世纪之后才逐渐变大。《春江花月夜》在明清并无影响力,直到王闿运赞其「孤篇横绝,竟为大家」,闻一多又称其为「诗中的诗,顶峰中的顶峰」,才将这首诗擡到至高无上的地位。

同样情况还有陆游的《卜算子•咏梅》(驿外断桥边)。毛泽东曾用「风雨送春归,飞雪迎春到」来和陆游这首词,一代伟人和领袖以自身政治影响力和诗词地位,提高了这首词的影响力。柳永《蝶恋花》(伫倚危楼风细细),在明清之前也几乎没有什么影响力,但自从王国维将「衣带渐宽终不悔,为伊消得人憔悴」列为人生三种境界后,这首词开始被读者熟知。

杜甫在盛唐时代几乎是一个无名小卒。李白出名时,杜甫只是一个普通的文艺青年。他和李白的年龄相差11岁,是李白的「迷弟」,所以可以看到很多杜甫怀念李白的诗,但很少看到李白给杜甫的诗。杜甫去世很多年后,元稹为其写墓志铭时发现了他的光芒。后来韩愈在《调张籍》中说「李杜文章在,光焰万丈长」,文坛领袖的推荐又进一步扩大了杜甫的影响力。

有些诗人、词人,在外国的影响力可能比在中国高。寒山的诗曾经在美国风行一时,在国内反倒没多少人了解他。在西方,作品被翻译最多的中国诗人不是李白、杜甫,而是王维;作品被翻译最多的词人不是辛弃疾、苏轼,而是李清照。

文学的发展有一定的偶然因素,比如李清照的作品在宋代有很多种版本,用今天的话来说,宋代很多出版社出版了她的词集,但到了明代全部失传。她的作品只能去选本中找,最终只找到40多首。另外,与李清照同时期的女词人朱淑真,在当时的影响力并不大,但她的几百首作品反而全部流传了下来。

也有很多古代红极一时的诗词,今天却无人问津。如欧阳修《蝶恋花》(海燕双来归画栋)、聂冠卿《多丽》(想人生)、周邦彦《侧犯》(暮霞霁雨)、王观《雨中花令》(百尺清泉声陆续),它们分别在明代22种词选中被入选17、18、19、20词,差不多是明人词选必选的名篇。可到了20世纪,其影响力和知名度降到了最低。个中原因,值得思考与探讨。

古诗词的影响力始终处于不断变化之中,很难通过一两条材料得出全面、客观、准确的判断,而大数据可以完整展现出一首诗词影响力的变化。

我从1992年第一次用数据分析古代诗词,现在数据不断丰富,模型不断完善。2000年以后,大数据库中除了中国不同历史时期的古诗词选本,还纳入了欧美日韩等海外的中国古代诗词数据。

目前,我们正建设古今中外诗歌的融合大数据平台。该平台已经收集了上百万首中国古典诗歌,正在收集20世纪以来有中文翻译的外国诗歌,以及五四运动以来的十余万首新诗。

没有一个大数据可以穷尽样本,但我们希望借助人工智能得出误差最小的结论。五四运动后的诗人郭沫若、胡适、闻一多,谁的影响力更大?在中国影响力最大的外国诗人是普希金、泰戈尔还是歌德?我们将用大数据说话。

受访者简介:

王兆鹏,四川大学文学与新闻学院文科讲席教授、博士生导师。现为中国词学研究会会长、中国李清照辛弃疾学会会长、中国宋代文学学会常务副会长,《宋代文学研究年鉴》主编。主要研究唐宋文学和数字人文,主持国家社会科学基金重大项目2项。已出版《全唐五代词》《唐宋词史论》《词学史料学》等专着十余部,发表学术论文三百余篇。

(本文来源:中新社「东西问」专栏,授权中时新闻网刊登)

※以上言论不代表旺中媒体集团立场※