珍奥斯汀小说魅力为何历久不衰? 数据分析这样说
7月18日是英国小说家珍奥斯汀(Jane Austen)逝世两百周年的日子。
她的作品脍炙人口,关于她的研究汗牛充栋。研读英国文学,很多人也都是从她的《理性与感性》、《傲慢与偏见》想像小说应有的样子。
如今拜科技之赐,有人想透过数据分析奥斯汀的用词遣字,理解她小说魅力历久不衰的秘密。
珍奥斯汀过世两百年后,她的文字仍主导着庞大的文化产业。
从戏剧和电影的改编、同人小说(fan fiction,也就是利用类似角色情节场景做的二次创作)、相关文创商品、甚至旅游行程,都围绕着她和她的几部小说。
美国史丹佛大学文学实验室创办人莫瑞提(Franco Moretti),专研用数据分析进行小说的研究,他认为某些作品之所以能历经时间的考验而成为经典,仰赖的是普通读者的选择。这种过程。类似于生物学物竞天择的演化。
文学史的形成,是因为读者喜欢文学作品中显著的特征而做出了选择,让它跨越世代存活。莫瑞提,美国史丹佛大学文学实验室创办人
那么,让奥斯汀显得不凡的特征是什么,它们能否透过数据来衡量?我们能否用数据描绘出文学的天才?
纽约时报的两名动态图表编辑Kathleen A. Flynn和Josh Katz,最近在 Upshot 专栏里发表了分析的结果。
奥斯汀的小说成就斐然,她写作的创新之处,或许未完全受到和她同时代人们的理解。不过,她小说较早被注意到一个特色,是文字上自然主义的风格。
不同于奥斯汀当时风行的作品,她的场景没有充满鬼影幢幢的义大利古堡(她在《诺桑觉寺》里曾经嘲笑哥德式小说的鬼怪设计)、没有如《Clarissa》里主角被浪荡公子绑架、或《Cecelia》女主角继承了附加怪异条件的遗产的这类悬疑情节。当时的历史小说家史考特(Walter Scott)曾经赞美奥斯汀「取法自然的艺术,她仿佛真实存在市井小民的日常中并传达给读者,而不是出自想像的世界的华丽场景。」
纽约时报想要透过数据,绘出奥斯汀的自然主义的长相。
纽约时报选取的分析对象,是奥斯汀的六本小说,和125部出版于1710年到1920年之间的英语小说。它利用统计学的「主成份分析」技术,依据每一个作品使用的词汇设计了一个平面的图表。使用的字词越相近的书,在图上的位置就会越靠近。
根据这两位研究者的说法,在水平轴上,越靠左侧的是较抽象的,与心理状态或社交关系相关字词,例如:acquaintance(熟人)、affection(情感)、attended(出席)、conduct(举止)、depended(依赖)、desire(欲望)、endeavoured(努力)、favour(喜爱)、gratitude(感谢)、indulgence(放纵)、merit(价值)、obliged(责任)、occasion(机缘)、prevailed(胜出)、received(接受)、resentment(憎恨)、resolution(决心)、resolved(坚定)、suffered(受苦)和virtue(美德)。
越是靠右边,则是较具体的,与实体世界和感官知觉有关的,例如:blue(蓝色)、close(接近)、dark(黑暗)、edge(边缘)、empty(空洞)、fingers(指头)、grass(草地)、head(头)、hot(热)、outside(外面)、picked(挑选)、rolled(滚动)、round(圆)、shoulder(肩膀)、slipped(滑动)、slowly(缓慢)、stand(站立)、top(顶端)、watch(表)和white(白色)。
至于在图表的垂直轴,越往下是越类似中世纪通俗剧用到的英文,例如banquet(宴席)、beheld(看)、slain(杀)、sword(剑)、thee(你)。
而图表往上,则是一些日常性的用词,强调或比较的副词像是quite(相当)、really(真的)、very(非常),以及与时间和情绪有关的词:always(总是)、fortnight(两星期)、week(星期)、awkward(笨拙)、decided(决定)、dislike(不喜爱)、glad(高兴)、sorry(难过)、suppose(设想)。
从这张图表来看,奥斯汀几乎是自成一格。她的六部小说(《傲慢与偏见》、《理性与感性》、《爱玛》、《曼菲德公园》、《说服》、《诺桑觉寺》)全部集中在图的左上角。
根据研究者的分析,这张图表显示奥斯汀小说里使用的词,显然是抽象的多过于实体的描述,而日常情境的用语也多于以中世纪为场景的通俗剧词汇。
从数据的分析看得出珍奥斯汀的小说用词遣字有一些习惯的用语。但这是否就代表作家的个人风格?此外,光凭这个图表,是否就足以说明小说历久不衰、跃居经典的原因?
纽时的研究员认为,或许我们需要更多的数据。
在另一项分析珍奥斯汀小说用字的研究报告中,它拿来与一批同时期英国小说以及1780年到1820年之间的小说做比较。
它发现了奥斯汀的用词几个明确的特点。
比如说,和其他同期作家相比,她使用了相对较多指涉女性的字如she、 her(她、她的)、 Miss(小姐)和sister(姊妹),这结果如果考量奥斯汀的小说主题,其实不难设想。另外,奥斯汀使用比例比其他作家更高的是一些强调作用的修饰字:像是very(非常)、much(很多)、so(如此)。这种强调词的使用,与她写作的一个重要特征有关联,而且这个特征乍看之下很难用量化的方式分析,那就是反讽(irony)。
纽时的报导中提到,传统上对奥斯汀的研究,多半会注意到她作品中「表象与本质之间的不相称」。在小说里频繁使用「very」这个字的段落,往往可以察觉出它所说的字面的意思往往和实际的意思相冲突,这种夸饰强调正好微妙导引读者去怀疑,明白一切并非字面看来。而这种反讽的手法,如今透过量化的数据分析,竟然也可以得到佐证。
纽约时报的分析,或许可以归类为随着数据研究而兴起的「文学的统计学研究」。过去最知名的是数据记者Ben Blatt的研究,他发现雷布莱伯利(Ray Bradbury,《华氏451》的作者)小说经常出现的词是cinnamon(肉桂),小说家纳博科夫(Vladimir Nabokov)最喜欢的字是mauve(锦葵),而托尔金的《哈比人》里面,she这个字总共竟只出现一次。
这些分析结果,在一般人看来或许只是一些文学冷知识,学院传统里的学者也可能认为它无关宏旨。不过,它确实也带动了文学研究的一些改变。
去年牛津大学出版社,透过字词的数据分析后,决定把莎士比亚同时代的作家马罗,列为莎翁名剧《亨利六世》的共同作者,成了震动莎翁研究的大新闻。
所以,这些看似无关文字、风格的统计数字,对于一个文学名著(或是失败的作品)是如何构成的,或许提供了读者不同面向的理解。
参考资料:
The Word Choices That Explain Why Jane Austen Endures(New York Times)
A journalist uses statistics to uncover authors' "cinnamon words"(PRI)
更多镜周刊报导牛津开新例 莎翁名剧增列共同作者夜空下的GDP密码 三名美国经济学家破解中国数据之谜听见金融海啸的声音... 网路新工具将图表化为钢琴音阶