☰

红楼梦后40回解密？　网友用「SVM」演算判断作者

▲黎晨把三国演义分前60、后60回分析。（图／翻摄自知乎）

红楼梦是曹雪芹的名著，不过最后40回是否由他撰写一直有争议，大陆网友黎晨日前在《知乎》上发表文章，指称用SVM（支持向量机器，Support vector machine）算法分析，得出的结果显示作者并非曹雪芹。这篇文章引起网友大量讨论，不过有人质疑研究方法不够严谨、挑选样本偏差，不足以证实论点为真。

黎晨以用词作为辨认的依据，认为文章前后内容虽有差别，习惯却不容易改变，首先用「jieba分词工具」挑选出现超过100次的词语，再从中去除因为剧情关系不一致的人名或地名，「我不选宝二爷或黛玉笑这种涉及人物的词语，但是『忽然』、『故』、『只要』、『可不是』这种不容易受情节影响的连接词，适合选出来当特征」。

黎晨接着各选15回作为机器学习的数据、分析用词特点，推算其他章节属于前80回或后40回，「机器在学习以后告诉我，有95%的把握可以区隔前80回与后40回的用词习惯」。他再拿三国演义测试，这次机器只有7成的把握，「准确度远远低于95%的预测水准，所以我们更有信心说曹老先生没有写后40回了。」

这项结论引起网友争辩，有人直言，选取的特征并不是完全独立，而且回数分配不均，抽出的词类也容易落入前80回，「作者把测试集和训练集混在一起高估实际的准确率」，也没有说明三国演义的测试条件，就把两者拿来对比非常不精确。尽管结果不能解决争论，这项实验仍然不失为一种另类的分析角度。

相关资讯