苏南/大数据能神预测谁当选?

利用数据分析选民的不同个性价值观投票倾向,让潜在支持者动起来。(图/视觉中国)

合一选举只剩12天(11月24日),漫天飞的民调数字会准吗?不同的媒体、政党,报导的数据难免会有差别,再加上来乱的大陆网军,究竟要相信谁呢?

选举是台湾政治自由民主、社会开放进步的基石,经济学人情报社(the Economist Intelligence Unit, EIU)今年1月31日发布「2017民主指数」,全球民主呈现倒退,而台湾在全世界排第33名,居东亚第3名,虽属于「有缺陷民主国家」(lawed democracy),但「选举过程与多元性」的指标得分高达9.58、「公民自由」达9.12,而「政治参与」仅6.11、「政治文化」则低至5.63(满分10)。

大数据可以预测选举结果吗?2016年的美国大选,印度的人工智慧 (MogIA AI)系统,在选前就已经预测川普会当选总统!11月7日美国期中选举开票,国会参议院席次共和党51席(过半)、民主党42席;众议院为民主党213席(过半)、共和党190席。而选前的民意调查网站亦显示,民主党赢得众议院的可能性达86%,共和党守住参议院的机率逾80%,亦即选举结果与选前预测吻合。

大数据是2010年由IBM所提出,涵盖4个V:大量化(Volume)、快速化(Velocity)、多样化(Variety)与真实性(Veracity)。选民的选票可能被大数据「算计」吗?争取选票的重点是争取「中间选民」或「摇摆派」,他们可投可不投,或持观望态度,或选前最后一天才决定要投给谁。利用大数据分析选民的不同个性及价值观等投票倾向,运用Facebook或LINE等物联网结合大数据分析,推送特定心理目标的资讯宣传词给特定选民,再通过社交群组的「按赞」,也能聚「光环效应」,让潜在支持者动起来。

大数据可以藉网路舆情、媒体传播及国内外学者之相关研究等,综合加权预测各候选人的当选机率,但也会因杂讯资料而预测不精确。但大数据相较于民调,除减少人为操作外,资料可随时更新即时预测、提高民众利用的可近性(accessibility)。

大数据预测选情变数包括:候选人胜选机率、网路口碑语意分析)、媒体民调(抽样调查方法)、群众预测(即时交易数据)、口碑传播力及选民支持力等影响选情的关键因素,透过回归分析及机器学习法推估当选率,但预测模型的逻辑是前述变数与当选率的相关性,而非因果关系。

选举大数据须强调完整的选民资料,但「不限于」选民调查样本来预测当选机率。要提供给大数据的具体或IoT资料包括:1.Facebook、YouTube、新闻媒体、讨论区、部落格等网路口碑资料库;2.媒体调查并公布的民调报告资料库;3.未来事件交易所、台北政治经济交易等国内民调网站资料;4.历史选情资料库(中选会维基百科)等。搜集资料的方式,也涉及如何诠释预估得票率及看好度等。但在投票日前10日起至投票时间截止前,不得以任何方式发布民调资料,亦不得报导、散布、评论或引述(《公职选罢法》第53条第2项)。

大数据目前预测,台北市长候选人中的柯文哲、丁守中,当选率领先;选战激烈的高雄市韩国瑜、陈其迈呈现五五波台中市林佳龙卢秀燕新北市侯友宜苏贞昌桃园市郑文灿台南市黄伟哲,暂时领先。大数据的预测会依据不同的调查时间、样本及调查机关等而不同,笔者以为,大数据选举预测模型除可大幅减少人为操作外,也能即时反映选情,去除局部民调的偏误受访人样本不足等,还有不同民调单位常见的预测结果南辕北辙问题

大数据预测也有其黑暗面,例如配合特定候选人操作,企图操弄选情,另外也要避免因资讯搜集对民众隐私权造成威胁,以及防免迷恋资料分析及滥用,以致形成「资料独裁」或「大数据的傲慢与偏见」。

针对2018年选举的笔者观察,经济选民可能会引导选举风向,尤其要考虑中产阶级的投票倾向,尤其是军公教年金被砍后的影响。此外,气候变迁所带来的跨域治理问题,在非核家园理念下,绿能发电技术是否成熟?前瞻基础建设的投资效益及乘数效应,是否感动民众?还有长照2.0的落实、招商促进产业及解决劳工与劳工低薪问题等。

选举是在看未来,未来的当选人除了要落实政见外,更需要有执行力,千万不要只是藉选举来骗选票。期望借由九合一选举,选到对的人,也让人看到台湾的未来!

好文推荐

苏南/打击假新闻却不打压言论自由

苏南/百年老店如何善用AI?智慧运输成为台铁蜕变契机

苏南/失速的普悠玛

●苏南,国立云林科技大学营建系及通识教育中心教授,交通大学土木工程博士,中正大学法学博士中国政法大学法学博士。以上言论不代表本公司立场。