红楼梦后40回解密? 网友用「SVM」演算判断作者

▲黎晨把三国演义分前60、后60回分析。(图/翻摄自知乎)

网搜小组综合报导

红楼梦曹雪芹名著,不过最后40回是否由他撰写一直有争议大陆网友黎晨日前在《知乎》上发表文章,指称用SVM(支持向量机器,Support vector machine)算法分析,得出的结果显示作者并非曹雪芹。这篇文章引起网友大量讨论,不过有人质疑研究方法不够严谨、挑选样本偏差,不足以证实论点为真。

黎晨以用词作为辨认的依据,认为文章前后内容虽有差别,习惯却不容易改变,首先用「jieba分词工具」挑选出现超过100次的词语,再从中去除因为剧情关系不一致的人名地名,「我不选宝二爷黛玉笑这种涉及人物的词语,但是『忽然』、『故』、『只要』、『可不是』这种不容易受情节影响连接词,适合选出来当特征」。

黎晨接着各选15回作为机器学习的数据、分析用词特点,推算其他章节属于前80回或后40回,「机器在学习以后告诉我,有95%的把握可以区隔前80回与后40回的用词习惯」。他再拿三国演义测试,这次机器只有7成的把握,「准确度远远低于95%的预测水准,所以我们更有信心说曹老先生没有写后40回了。」

这项结论引起网友争辩,有人直言,选取的特征并不是完全独立,而且回数分配不均,抽出的词类也容易落入前80回,「作者把测试集和训练集混在一起高估实际准确率」,也没有说明三国演义的测试条件,就把两者拿来对比非常不精确。尽管结果不能解决争论,这项实验仍然不失为一种另类的分析角度