也谈统计误差

图╱美联社

112年10月失业率的估计误差

总统大选在即,各类民调粉墨登场,尤以日前在野阵营循民调决定总统大选组合一事,让统计学备受瞩目。长期以来,大家都熟悉在95%信心水准下,随机抽取1,068个样本,即可让估计值落在正负3%的误差范内,至于为何如此,则少有闻问。

样本多一点 误差小一点

事实上,这类民调属于比例数(proportion)统计,比例数有其特殊性,要抽多少样本,会有多大误差,用公式一下子就可以算出来,若想让误差小于正负3%,在95%的信心水准下,要随机抽取1,068个样本,随机(random)是非常重要的前提,当样本有偏误或答者有隐瞒,误差就难以估计了。如果想让误差小一点,样本就得多一点,误差真要低于正负1.5%,那么样本数非达到4,200份不可。

这类估计有误差,那么平日里政府发布的失业率、通膨率、外销订单有没有误差?当然有,因为这些数字也是循抽样推估而得,只要是抽样,必定有误差,但误差到底多大?多数不会注明,其一是抽样方法复杂,很难算出误差,再者,若公布指标,又公布误差,那岂不是自找麻烦,原本一个指标,加减一个误差之后,就变成三个通膨率、三个失业率,反倒让大家无所适从了。

有趣的是,我国就业调查虽未公布估计误差,但在月报里会提供误差的资料,以10月而言,政府公布的失业率是3.43%,创了23年同月最低,但在95%信心水准下的信赖区间是3.28%~3.58%,误差是0.15个百分点,倘若公布失业率时告诉大家我们的失业率高推估是3.58%,低推估是3.28%,那可麻烦了,想批判政府的就拿高推估来骂,想捍卫政府的就拿低推估来挡,势必带来混乱,也因此,各国公布通膨率、失业率等总体数据,少有公布统计误差的。

也许有人会问,统计误差0.15个百分点是怎么估的?首先,要求得标准误(standard error),就业调查是以国内7,700个村里为母体,每月抽出530个样本村里,再循系统抽样取得样本户,展开访查,然后,由村里失业率汇整成全国失业率,由此分布即可算出标准误,标准误乘上1.96即统计误差,以今年10月的资料,标准误是0.08个百分点,相乘后得到的误差即0.15个百分点。

为何95%比99%更理想?

也许有人还会问,为何要乘上1.96?因为抽样所估得的失业率是随机变数,会服从常态分配(normal distribution),而在标准常态分配曲线里,-1.96~1.96之间的面积占了95%,用白话文说,就是落在此一区间的机率是95%,非常值得信赖。当然,你也可以取99%的信赖区间,不过,这时要乘的数字就不是1.96,而是2.58,这个区间会变得宽一点,一般而言,95%最为适当。

依主计总处的资料,10月除了失业率的误差是0.15个百分点,失业人数的误差约2万人、就业人数误差约7万人,尚属平稳。然而,这是理论误差,若调查时遇有拒访,受访者随意敷衍,则误差到底有多大,就很难说了。

小档案■我国失业调查为分层两段随机抽样,动员550名访查员取得2万户样本,推估800多万户就业情况,首先以产业结构、年龄及教育程度对村里进行分层,新北市分为五层(各县市略有差异),各层皆随机抽得若干村里为样本,以让样本更具代表性,接着在村里里循系统抽样以取得样本。

小档案■我国失业调查,被抽到的家庭,会访四次,本月、下月,明年的本月、下月,每月样本2万户,有一半和上月重复,还有一半和上年同月重复,新增样本只有5千户,循样本轮换机制有两个优点,一是样本随机而稳定,一是由于有半数重复样本,可以观察一年之间、两个月之间同一组资料(panel data)的变化。