苏南/大数据能神预测谁当选?
▲利用大数据分析选民的不同个性及价值观等投票倾向,让潜在支持者动起来。(图/视觉中国)
九合一选举只剩12天(11月24日),漫天飞的民调数字会准吗?不同的媒体、政党,报导的数据难免会有差别,再加上来乱的大陆网军,究竟要相信谁呢?
选举是台湾政治自由民主、社会开放进步的基石,经济学人情报社(the Economist Intelligence Unit, EIU)今年1月31日发布「2017民主指数」,全球民主呈现倒退,而台湾在全世界排第33名,居东亚第3名,虽属于「有缺陷民主国家」(lawed democracy),但「选举过程与多元性」的指标得分高达9.58、「公民自由」达9.12,而「政治参与」仅6.11、「政治文化」则低至5.63(满分10)。
大数据可以预测选举结果吗?2016年的美国大选,印度的人工智慧 (MogIA AI)系统,在选前就已经预测川普会当选总统!11月7日美国期中选举开票,国会参议院席次为共和党51席(过半)、民主党42席;众议院为民主党213席(过半)、共和党190席。而选前的民意调查网站亦显示,民主党赢得众议院的可能性达86%,共和党守住参议院的机率逾80%,亦即选举结果与选前预测吻合。
大数据是2010年由IBM所提出,涵盖4个V:大量化(Volume)、快速化(Velocity)、多样化(Variety)与真实性(Veracity)。选民的选票可能被大数据「算计」吗?争取选票的重点是争取「中间选民」或「摇摆派」,他们可投可不投,或持观望态度,或选前最后一天才决定要投给谁。利用大数据分析选民的不同个性及价值观等投票倾向,运用Facebook或LINE等物联网结合大数据分析,推送特定心理目标的资讯或宣传词给特定选民,再通过社交群组的「按赞」,也能聚「光环效应」,让潜在支持者动起来。
大数据可以藉网路舆情、媒体传播及国内外学者之相关研究等,综合加权预测各候选人的当选机率,但也会因杂讯资料而预测不精确。但大数据相较于民调,除减少人为操作外,资料可随时更新即时预测、提高民众利用的可近性(accessibility)。
大数据预测选情的变数包括:候选人胜选机率、网路口碑(语意分析)、媒体民调(抽样调查方法)、群众预测(即时交易数据)、口碑传播力及选民支持力等影响选情的关键因素,透过回归分析及机器学习法推估当选率,但预测模型的逻辑是前述变数与当选率的相关性,而非因果关系。
选举大数据须强调完整的选民资料,但「不限于」选民调查样本来预测当选机率。要提供给大数据的具体或IoT资料包括:1.Facebook、YouTube、新闻媒体、讨论区、部落格等网路口碑资料库;2.媒体调查并公布的民调报告资料库;3.未来事件交易所、台北政治经济交易等国内民调网站资料;4.历史选情资料库(中选会、维基百科)等。搜集资料的方式,也涉及如何诠释预估得票率及看好度等。但在投票日前10日起至投票时间截止前,不得以任何方式发布民调资料,亦不得报导、散布、评论或引述(《公职选罢法》第53条第2项)。
大数据目前预测,台北市长候选人中的柯文哲、丁守中,当选率领先;选战激烈的高雄市韩国瑜、陈其迈呈现五五波;台中市的林佳龙、卢秀燕,新北市的侯友宜、苏贞昌,桃园市的郑文灿及台南市的黄伟哲,暂时领先。大数据的预测会依据不同的调查时间、样本及调查机关等而不同,笔者以为,大数据选举预测模型除可大幅减少人为操作外,也能即时反映选情,去除局部民调的偏误及受访人样本不足等,还有不同民调单位常见的预测结果南辕北辙问题。
大数据预测也有其黑暗面,例如配合特定候选人操作,企图操弄选情,另外也要避免因资讯搜集对民众隐私权造成威胁,以及防免迷恋资料分析及滥用,以致形成「资料独裁」或「大数据的傲慢与偏见」。
针对2018年选举的笔者观察,经济选民可能会引导选举风向,尤其要考虑中产阶级的投票倾向,尤其是军公教年金被砍后的影响。此外,气候变迁所带来的跨域治理问题,在非核家园理念下,绿能发电技术是否成熟?前瞻基础建设的投资效益及乘数效应,是否感动民众?还有长照2.0的落实、招商促进产业及解决劳工与劳工低薪问题等。
选举是在看未来,未来的当选人除了要落实政见外,更需要有执行力,千万不要只是藉选举来骗选票。期望借由九合一选举,选到对的人,也让人看到台湾的未来!
好文推荐
苏南/失速的普悠玛
●苏南,国立云林科技大学营建系及通识教育中心教授,交通大学土木工程博士,中正大学法学博士,中国政法大学法学博士。以上言论不代表本公司立场。