叶家兴/濒临绝种的民调 大数据才是王道

民调仍是许多人的参考依据,但随着科技日新月异传统调查方式是否可信值得存疑。(图/视觉中国CFP)

总统就职周年民调惨兮兮,各机构所做的电话民调不约而同皆显示:民众对她的不满意度创新高,满意度却创新低。换言之,总统念兹在兹的各项改革,得罪的人不说,竟也没让受益者满意。更惨的是,比起前三任民选总统李登辉陈水扁马英九就职一周年的民调表现,她的净满意度居然是史上最低。如果历史纪录可以参考,那蔡总统极可能挑战马前总统的9.2%低标,直逼韩国前总统朴槿惠法国前总统欧兰德的4.0%世界纪录。不过对此,蔡总统则豪气干云的说:「我不是为民调做事,我是为台湾做事!」事实上蔡总统的理直气壮有其道理。首先,传统民调在2016年的英国公投与美国大选连两次「杠龟」,重创其公信力。虽然最近在法国总统大选扳回一城,不过这主要是因竞争双方的差距太大,各种「沉默螺旋」、「样本偏误」都影响不了调查结果。其次,可能也更重要的是,传统电话民调号称基于严谨的统计抽样过程,由具代表性的抽样样本来推论整体民众的意见。可问题是,以住宅电话为母体的随机抽样,依旧可靠吗?根据政治大学朱斌妤教授等多位学者所做的学术研究显示,台湾20岁以上的民众约有27~29%无法被传统市话调查所触及。如果这种遗漏属「完全随机遗漏」(Missing Completely at Random)也罢,那统计推论的结果不会受太大影响。然而,研究无情的显示恰恰相反的结果。更惊人的是,对于20~39岁的民众来说,传统市话涵盖率不及55%,几乎一半的青壮年人口由于旅居在外、放弃市话,或仅倚赖行动网路与外界沟通,但他们的意见却完全被市话民调所忽略!许多民调最后往往强调数据已针对受访者性别年龄地区,进行样本代表性检定后加权处理。然而,对「非随机遗漏」的样本,如果以抽到的样本为基础来加权,可能使统计偏差更加扩大,调查结论更加失真。

▲当科技把传统民调方式打入夕阳产业,或许大数据将成为可提供真实讯息的重要来源。(图/视觉中国CFP)

为了矫正这种可能缺陷,某民调公司针对「客家人口暨语言基础资料调查」所公布的调查报告中,除了来自传统市话的6万多份有效样本外,也利用行动网路完成2千5百多份唯手机族的样本进行比较,虽两份都针对地区、年龄及性别加权,但两者推估的客家人口比例竟出现4%的差距!换句话说,唯手机族样本的「自我选择偏差」(Self-selection Bias)不可小觑,而以市话调查推估整体民意,仅能代表71~73%可被市话触及的民众,其人口组成及对公共事务的态度,可能与另外1/4以上的唯手机族存在差异。更糟的是,随着时间一天一天的过去,行动网路更加快速、成本更加低廉,放弃市话选择成为「唯手机族」的人数还在逐日增加!如果进步的科技把传统民调行业打入夕阳产业,那么有取而代之的方法,能快速掌握全体民意吗?可能还没有!因为现代人也许正处于马车与汽车并存的年代。若干年后,等到网路覆盖率接近百分之百时,真正有效率且有代表性的抽样调查或将诞生。而在那之前,传统的民调会像温水青蛙一样,慢慢死亡。甚至如即将在英国出版的新书《每个人都说谎:大数据、新数据、网路揭露我们的真面目》(Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are)所言,就像显微镜与望远镜改变了自然科学一样,网路也将革命性的改变社会科学的方法论。曾在Google担任数据科学家的作者Seth Stephens-Davidowitz相信,大数据拥有4项独特的威力,其中最重要之一,就是可以提供真实的信息来源(例如对色情、政治、减肥、医疗等资讯的主动搜寻),捕捉人们真实所知所想,而不是他们选择告诉民调机构的讯息。因此,蔡总统说的也没错:「我不是为民调做事,我是为台湾做事!」只是希望她比竞选失利的美国民主党候选人希拉蕊,拥有更强大的数据科学武器,能比现有民调更精准得知台湾人民要的是什么、想的是什么,否则,比民调更早消失于历史舞台的,担心会是蔡总统自己。

好文推荐

叶家兴/谁在纵容狼师

叶家兴/囤积有罪,囤房无罪?

叶家兴/补习像场核武竞赛

►►►随时加入观点与讨论,给云论粉丝团按个赞!

●叶家兴,在香港吐露港湾生活与任教的台湾客家人,出生在《冬冬的假期》电影里的小镇苗栗铜锣台大电机系学士、经济所硕士、美国威斯康辛大学精算、风险管理与保险博士。1996年离台前金门太武山麓服役两年。译有《经济学与社会的对话》、《世代风暴》、《助人为获利之本》、《当经济指标统治我们》等。着有《理财与保险--迷思与反思》、《陆生元年》、《未来事件交易簿》。以上为个人言论,不代表本网立场。