☰

也谈统计误差

图╱美联社

112年10月失业率的估计误差

总统大选在即，各类民调粉墨登场，尤以日前在野阵营循民调决定总统大选组合一事，让统计学备受瞩目。长期以来，大家都熟悉在95％信心水准下，随机抽取1,068个样本，即可让估计值落在正负3％的误差范内，至于为何如此，则少有闻问。

样本多一点误差小一点

事实上，这类民调属于比例数（proportion）统计，比例数有其特殊性，要抽多少样本，会有多大误差，用公式一下子就可以算出来，若想让误差小于正负3％，在95％的信心水准下，要随机抽取1,068个样本，随机（random）是非常重要的前提，当样本有偏误或答者有隐瞒，误差就难以估计了。如果想让误差小一点，样本就得多一点，误差真要低于正负1.5％，那么样本数非达到4,200份不可。

这类估计有误差，那么平日里政府发布的失业率、通膨率、外销订单有没有误差？当然有，因为这些数字也是循抽样推估而得，只要是抽样，必定有误差，但误差到底多大？多数不会注明，其一是抽样方法复杂，很难算出误差，再者，若公布指标，又公布误差，那岂不是自找麻烦，原本一个指标，加减一个误差之后，就变成三个通膨率、三个失业率，反倒让大家无所适从了。

有趣的是，我国就业调查虽未公布估计误差，但在月报里会提供误差的资料，以10月而言，政府公布的失业率是3.43％，创了23年同月最低，但在95％信心水准下的信赖区间是3.28％～3.58％，误差是0.15个百分点，倘若公布失业率时告诉大家我们的失业率高推估是3.58％，低推估是3.28％，那可麻烦了，想批判政府的就拿高推估来骂，想捍卫政府的就拿低推估来挡，势必带来混乱，也因此，各国公布通膨率、失业率等总体数据，少有公布统计误差的。

也许有人会问，统计误差0.15个百分点是怎么估的？首先，要求得标准误（standard error），就业调查是以国内7,700个村里为母体，每月抽出530个样本村里，再循系统抽样取得样本户，展开访查，然后，由村里失业率汇整成全国失业率，由此分布即可算出标准误，标准误乘上1.96即统计误差，以今年10月的资料，标准误是0.08个百分点，相乘后得到的误差即0.15个百分点。

为何95％比99％更理想？

也许有人还会问，为何要乘上1.96？因为抽样所估得的失业率是随机变数，会服从常态分配（normal distribution），而在标准常态分配曲线里，-1.96～1.96之间的面积占了95％，用白话文说，就是落在此一区间的机率是95％，非常值得信赖。当然，你也可以取99％的信赖区间，不过，这时要乘的数字就不是1.96，而是2.58，这个区间会变得宽一点，一般而言，95％最为适当。

依主计总处的资料，10月除了失业率的误差是0.15个百分点，失业人数的误差约2万人、就业人数误差约7万人，尚属平稳。然而，这是理论误差，若调查时遇有拒访，受访者随意敷衍，则误差到底有多大，就很难说了。

小档案■我国失业调查为分层两段随机抽样，动员550名访查员取得2万户样本，推估800多万户就业情况，首先以产业结构、年龄及教育程度对村里进行分层，新北市分为五层（各县市略有差异），各层皆随机抽得若干村里为样本，以让样本更具代表性，接着在村里里循系统抽样以取得样本。

小档案■我国失业调查，被抽到的家庭，会访四次，本月、下月，明年的本月、下月，每月样本2万户，有一半和上月重复，还有一半和上年同月重复，新增样本只有5千户，循样本轮换机制有两个优点，一是样本随机而稳定，一是由于有半数重复样本，可以观察一年之间、两个月之间同一组资料（panel data）的变化。

也谈统计误差

相关资讯