奔腾思潮》黄珊珊大数据报告看好,背后支撑的是「正确数据」吗?(汪葛雷)

针对陈时中表态双城论坛不值得举办,「他之前也说有必要保留对话管道,他常常变来变去」。(本报资料照片)

关于民调,其可信度一直受到质疑,经过长年的选举洗礼,台湾民众也日益体认到民调需要「拣选」,少数几家有定期出民调,且与选举结果较吻合的民调机构才值得信赖,今年坊间也出现「台湾民调透明百科计划」评鉴各家民调的质量。

然而,民众对民调可能变「民调(ㄊㄧㄠˊ)」,被扭曲成文章已有警觉,然而对于大数据,民众却是不那么懂的,成为另外一个漏洞,能作一些引导舆论的操作。

举例说明,近日有篇文「陈时中声量高峰」,里面提到以下两段文字:

透过…….资料库观察三位主要候选人近一个月的网路声量走势,其中陈时中近一个月来声量最高,将近68万则,蒋万安的声量18万则,黄珊珊13万则…….选战也已经越来越热,蒋万安每日平均声量约为6756,黄珊珊则为6325,黄珊珊几乎是翻倍成长,每日声量已与蒋万安的差距已缩小到431,黄珊珊声量能否「超蒋赶陈」值得期待。

从目前的结果来看,黄珊珊的选战策略获得较佳的网路好感度,以0.56的好感度领先陈时中的0.37、蒋万安的0.38。陈时中……正面声量比例较低,只有5%;蒋万安则是积极「固本」,重捡「疫苗采购黑箱」与「民进党挡疫苗」等老题目攻击陈时中,尝试增加陈时中的仇恨值,但也容易激起对立,导致自己目前的负面声量为16%,居三人之冠。

这个说法,很明显是有利于黄珊珊的论述。当然,如果黄珊珊真的声势看涨,作为论述者,点出来可不可以?当然可以。但依笔者看.这篇分析至少有二大问题:

1. 各家公司网路声量统计方式皆不透明,难建立绝对权威性

大数据在选举空战的时代,确实是很重要,但其鉴定成果一直是黑箱。比方同样是大数据平台,有些平台陈时中30日声量随便都破百万笔,而「陈时中声量高峰」一文引述的舆情资料库,近日的一份报告(量测时间:2022/08/08至09/07),陈时中声量仅68万笔,差距甚大。各家公司技术有异,不可能「穷举」各种网路上的舆论,资料搜集的范围更被视为商业机密,自然也很难公开一个能让所有人信服的资料来源清单,更别谈谁在声量上能「超越」对手,能参考的恐怕只有同一个榜单上,各位参选人「涨跌的趋势」。要真正找出一个准确的数字,是不太可能的。

2. 网路好感度仅能参考,过度分析无太大意义

这件事情直白的说,过去数个月,哪位政治人物的声量比林智坚高?但这声量对林智坚有什么帮助吗?没有,过街老鼠人人喊打是一种高声量,但绝对没有政治人物要这种声量,大家追求的是正面评价。因应于此,许多舆情分析报告里面都有谈到网路好感度,通常是拿机器检视后的正面声量,除以负面声量,比值越高表示好感度越高。

问题就来了,机器终究不比人脑聪明,大家都知道中文有一些复杂的语法,以「我们中出了叛徒」为例,机器到底判读成「我们中间出了叛徒」的意思,还是判别成「我们『中出』了叛徒」,这就是个未知。

能将一句话正确的拆分都有难度,更遑论判断一段文字是正面或负面。据笔者熟悉技术的朋友表示,只要一句话出现某人+负面字眼,就可能得出负面的结论,举例来说,「蒋万安抨击陈时中疫苗采购黑箱」,那么在机器的角度,蒋万安与陈时中都可能被记上一笔「负面」声量,但实际上在人工客观判读上,这应该仅是陈时中的负面声量,而不是蒋万安的,但系统难以给予正确判别。

也就是说,网路好感度仅是一个参考指标,「陈时中声量高峰」一文斩钉截铁说蒋万安负面声量居三人之冠,未免过于武断。

退一步说,假定该文的「好感度」与「声量」都可信。蒋万安声量18万笔,负面声量占16%(近3万笔),陈时中68万笔声量中,14%的负面声量(9万多笔),却成了负面声量之冠?未免有些牵强。

笔者不愿恶意揣摩「陈时中声量高峰」一文的动机,与该文引述之快析舆情资料库的可靠性。但一篇文导出对黄珊珊绝对有利的结论,一般民众却未必有足够背景知识,知道大数据分析的局限性,如此将得到不够客观的认知。还是应该正本清源,让大家了解大数据的局限性,唯有大众了解到世界上并不存在「真正完全正确的大数据判读」,大数据研究才不致于沦为「类文宣」般的操作。(作者为网路媒体工作者)

※以上言论不代表旺中媒体集团立场※