☰

奔腾思潮》黄珊珊大数据报告看好，背后支撑的是「正确数据」吗？（汪葛雷）

针对陈时中表态双城论坛不值得举办，「他之前也说有必要保留对话管道，他常常变来变去」。（本报资料照片）

关于民调，其可信度一直受到质疑，经过长年的选举洗礼，台湾民众也日益体认到民调需要「拣选」，少数几家有定期出民调，且与选举结果较吻合的民调机构才值得信赖，今年坊间也出现「台湾民调透明百科计划」评鉴各家民调的质量。

然而，民众对民调可能变「民调（ㄊㄧㄠˊ）」，被扭曲成文章已有警觉，然而对于大数据，民众却是不那么懂的，成为另外一个漏洞，能作一些引导舆论的操作。

举例说明，近日有篇文「陈时中声量高峰」，里面提到以下两段文字：

透过…….资料库观察三位主要候选人近一个月的网路声量走势，其中陈时中近一个月来声量最高，将近68万则，蒋万安的声量18万则，黄珊珊13万则…….选战也已经越来越热，蒋万安每日平均声量约为6756，黄珊珊则为6325，黄珊珊几乎是翻倍成长，每日声量已与蒋万安的差距已缩小到431，黄珊珊声量能否「超蒋赶陈」值得期待。

从目前的结果来看，黄珊珊的选战策略获得较佳的网路好感度，以0.56的好感度领先陈时中的0.37、蒋万安的0.38。陈时中……正面声量比例较低，只有5%；蒋万安则是积极「固本」，重捡「疫苗采购黑箱」与「民进党挡疫苗」等老题目攻击陈时中，尝试增加陈时中的仇恨值，但也容易激起对立，导致自己目前的负面声量为16%，居三人之冠。

这个说法，很明显是有利于黄珊珊的论述。当然，如果黄珊珊真的声势看涨，作为论述者，点出来可不可以？当然可以。但依笔者看．这篇分析至少有二大问题：

1. 各家公司网路声量统计方式皆不透明，难建立绝对权威性

大数据在选举空战的时代，确实是很重要，但其鉴定成果一直是黑箱。比方同样是大数据平台，有些平台陈时中30日声量随便都破百万笔，而「陈时中声量高峰」一文引述的舆情资料库，近日的一份报告（量测时间：2022/08/08至09/07)，陈时中声量仅68万笔，差距甚大。各家公司技术有异，不可能「穷举」各种网路上的舆论，资料搜集的范围更被视为商业机密，自然也很难公开一个能让所有人信服的资料来源清单，更别谈谁在声量上能「超越」对手，能参考的恐怕只有同一个榜单上，各位参选人「涨跌的趋势」。要真正找出一个准确的数字，是不太可能的。

2. 网路好感度仅能参考，过度分析无太大意义

这件事情直白的说，过去数个月，哪位政治人物的声量比林智坚高？但这声量对林智坚有什么帮助吗？没有，过街老鼠人人喊打是一种高声量，但绝对没有政治人物要这种声量，大家追求的是正面评价。因应于此，许多舆情分析报告里面都有谈到网路好感度，通常是拿机器检视后的正面声量，除以负面声量，比值越高表示好感度越高。

问题就来了，机器终究不比人脑聪明，大家都知道中文有一些复杂的语法，以「我们中出了叛徒」为例，机器到底判读成「我们中间出了叛徒」的意思，还是判别成「我们『中出』了叛徒」，这就是个未知。

能将一句话正确的拆分都有难度，更遑论判断一段文字是正面或负面。据笔者熟悉技术的朋友表示，只要一句话出现某人+负面字眼，就可能得出负面的结论，举例来说，「蒋万安抨击陈时中疫苗采购黑箱」，那么在机器的角度，蒋万安与陈时中都可能被记上一笔「负面」声量，但实际上在人工客观判读上，这应该仅是陈时中的负面声量，而不是蒋万安的，但系统难以给予正确判别。

也就是说，网路好感度仅是一个参考指标，「陈时中声量高峰」一文斩钉截铁说蒋万安负面声量居三人之冠，未免过于武断。

退一步说，假定该文的「好感度」与「声量」都可信。蒋万安声量18万笔，负面声量占16%(近3万笔)，陈时中68万笔声量中，14%的负面声量（9万多笔），却成了负面声量之冠？未免有些牵强。

笔者不愿恶意揣摩「陈时中声量高峰」一文的动机，与该文引述之快析舆情资料库的可靠性。但一篇文导出对黄珊珊绝对有利的结论，一般民众却未必有足够背景知识，知道大数据分析的局限性，如此将得到不够客观的认知。还是应该正本清源，让大家了解大数据的局限性，唯有大众了解到世界上并不存在「真正完全正确的大数据判读」，大数据研究才不致于沦为「类文宣」般的操作。（作者为网路媒体工作者）

※以上言论不代表旺中媒体集团立场※

奔腾思潮》黄珊珊大数据报告看好，背后支撑的是「正确数据」吗？（汪葛雷）

相关资讯