科学家新视野-AI侦测矛盾内容 让维基百科更可被信任

自动侦测自我矛盾的维基条目非常有挑战性,现有AI机器学习的技术仅能判断二个句子是否相互矛盾,难以准确侦测由多个句子所构成的一整篇文章中的矛盾。而且把所有句子两两比对,相当耗时,需要让AI从句子的上下文理解语意,才能侦测句子在语意层次上的矛盾,不能单纯看字面上的不一致。此外,AI演算法不仅要能准确判断一条目是否自我矛盾,还必须标示矛盾的是哪些句子的哪几个字词。

我们的研究团队与维基百科进行领先全球的跨国合作,首度侦测维基条目的自我矛盾,开发了能够准确辨识并且指出自我矛盾句子的AI演算法,「配对矛盾神经网路」。此演算法是运用自然语言处理的技术,称为「文字蕴含识别」,推论两个句子间的逻辑是否有正向、反向、双向、矛盾、独立等的关联。我们采用文字蕴含的资料集预先训练AI模型,让AI先学习理解两个文句的语意关联,并过滤文章中没有矛盾的句子,使得AI能够专注在可能有矛盾的句子上,学习较深层的推理。实验评估结果显示我们开发的AI演算法,与典型的文本分类方法相比,准确性提升15%,可以成功识别出60%的自我矛盾条目。

目前此技术正在「维基百科条目编辑与品质查核平台」上开发,可让维基百科的编辑者快速获知,正在编修的文字是否与内文自我矛盾,提高发布后的维基条目品质,使得维基百科提供更可靠的资讯以利大众查询。此技术还可协助侦测标题与内容不一致的资讯,例如侦测「点击诱饵」与「图文不符」的内容,让当前社群媒体能扫除这些赚取流量、剥夺使用者注意力、甚至影响决策的讯息,有望提高众多资讯来源的可信度。