编‧辑‧室‧报‧告-最近,统计学变得很重要

统计的用途非常广泛,用最多的当属政府,虽误差无从估算,但政府统计的思维是相信借由抽样设计、访查方式及事后核验,可以让推估值接近实际值。图/摘自Pixabay

最近,统计学变得很重要,在野的国民党、民众党原来想循民调来决定总统大选的组合,但由于对于3%的统计误差,究竟是正负3%,还是正负1.5%,难有共识,甚是纷扰,然而这一纷扰也让大家开始重视统计学了。

从统计学来看,这六份民调除了一份达到2,046个样本,其余皆落在1,082~1,484个样本之间,民调这类比例数(proportion)的估计误差,在确定信心水准之后,误差的大小就取决于样本数了,样本愈多,误差愈小。以这六份的样本数规模,是达不到正负1.5%的,真要让误差落到正负1.5%,样本数得扩大到4,200份才行。

■两党民调误差之争,

凸显统计的学问大

事实上,proportion的样本数与误差的关系,在初等统计学早有详论,只是经过本次争论,让我们又有机会重温一次。如今这个社会,统计的用途非常广泛,非仅民调用得上,医学、商业、传播及教育也派得上用场,而用最多的当属政府,企业未必有统计单位,但政府皆设有统计部门,专责经济、社会、人口、订单、物价、就业、薪资、所得分配等调查,定期发布以让国人了解社会的变化。

政府统计里,像proportion这类意向调查很少,多数仍是逐月自母体抽样,以「基准环比连锁法」推估母体的现况,比起proportion民调的难度更高。这些政府统计,由于要推估母体,样本回收率须达95%以上,如遇拒访也得以替代样本补上,从抽样设计、访查到推估,工程可谓浩大。这类推估不会注明误差,但有没有误差?一定有,包括抽样误差、非抽样误差,然而这些误差无从估算,政府统计的思维是相信借由抽样设计、访查方式及事后核验,可以让推估值接近实际值。

也许有人会问,母体从哪里来?政府每五年一次工商普查、每十年一次人口及住宅普查、户籍资料、海关统计、综所税档都是母体,依最近一次普查,制造业有16万家,工业部门有31万家、服务业部门有114万家,家庭户数有803万户,常住人口有2,291万人,有出口实绩者12万家,这些都是母体,当每个月要了解失业的变化、厂商接了多少订单、薪资有没有成长、工业生产、零售业营收是否复苏,只要自其中抽样推估,实际情况虽不中亦不远矣,这就是统计学的妙用。

■政府统计藉工商普查

回溯修正「偏误」

那么,这些政府统计到底抽了多少样本?这是好问题,各项调查都不太一样,工业生产指数每月访查6,600家、外销订单3,000家、受雇员工10,000家,失业率访20,000户,家庭收支访了16,000户,访查样本数虽只占母体0.2~2.5%,但由于有母体的结构为抽样依据,循各县市、各业别分层随机抽样、系统抽样、上位抽样、截略点抽样等统计方法,可让所估得数字接近母体。

虽然如此,相信还是有不少人会怀疑,样本数只占母体的0.2~2.5%能估得准吗?这样的担心是有道理的,也因此,主计总处每五年会办一次工商普查,借由普查资料来验证过去推估是否有偏误,若有偏误,会藉普查资料回溯修正,例如2000年以来,国内产业结构变化较巨,以2001年普查为母体所估得的受雇人数明显低估,2005年估计594万人,经2006年普查资料校正之后,2005年的受雇人数上修至620万人,其他如生产总额、附加价值、三角贸易、薪资等数字也会在工商普查里获得验证并修正。

统计方法的出现,是因应母体的不可知,如何以少数的样本快速推估母体的变化,变得非常重要,试想目前每月发布外销订单、通膨率、失业率,如果都要查数十万家厂商、数百万户家庭才能得知,今年11月的数据,大概得等到明年11月才能发布,这样的统计有何意义?果然发生严重的萧条、通膨都要等一年后才知晓,可能还没等到数字出来,台湾经济就瓦解了,统计学及统计工作的重要,于此可知。

■没有准确而即时的统计,

再伟大的政府也无法施政

本次两党对统计民调的针锋相对,看来也不是坏事,有助于唤起大家对统计理论的研究,及对政府统计工作的重视,果能如此,也算是好事。2600年前管仲于《管子》一书曾写道:「不明于计数,而欲举大事,犹无舟楫而欲经于水险也。」统计的重要性,管仲说得生动而明白,没有准确而即时的统计,再伟大的政府也是无法施政的,至盼总统参选人日后执政时,能更重视统计工作,至于长期以来每逢政府组织再造,动不动就想把统计部门并掉的念头,相信有远见的总统,绝不会让这种事再次发生的。