當家執政 竟黑箱監控

据媒体报导,执政的民进党政策会执行长王义川在某政论节目称,透过基地台手机讯号分析近日立法院抗争群众的年龄层分布,并比对此次青鸟活动、五一九民众党举办之集会,再比对二○二四总统大选选前之夜群众手机讯号,「意外发现」这次立法院外的集会,多了许多民进党年轻生力军,他们跟挺柯的民众党「小草」不是同一批人。

先不论此事件的合法性,本文拟针对事件中「大数据分析」本质来深讨,民进党动用电信基地台的顾客资讯进行大数据分析,就是透过手机讯号取得人流资讯特性分析,王义川称此为「目前商业市场进行活动调查的普遍基本方法」。

然而据笔者从事资料探勘与大数据分析应用教学多年的经验,由于网路云端资讯无时效性与可扩充性影响,大数据分析运用是不允许使用机构在未经使用者同意的情况下,将个资分享予其他机构的。且在相关法规的框限之下,企业组织间若要共同创造资料价值,须透过免于交换个资的免疫资料分析演算法(例如CLONALG)加以转换,如联盟式学习进行,或是去除足以辨识个资的内容,再进行资料分享,此步骤称之为「去识别化」。

质言之,去识别化的主要工作是找出资讯内较敏感的属性,利用去除、加密或加入杂讯之方式予以转换,最后才输出运用。而联盟式分享资讯学习的难处,即在于资料合作之企业,彼此须事先充分协调,针对其演算法等细节展开全面性商议及评估,并共同进行资讯系统的安装与开发,其合作门槛高且严谨。去识别化技术则可使个资转化为形式相同,但却无法辨识出个人身分的资料,让后续各式交换及运用得以进行。

虽然去识别化资料在统计特性上难免与原始资料有所出入,但运用上的弹性也使其成为兼顾个人隐私及资料交换需求的重要工具。最后产出去识别化资料时,仅保留原所用之统计特性,以及个资难以被辨别且符合隐私层级资料。虽然大数据分析已改变许多企业高层的决策模式,以往策略决定常依赖多年累积的经验判断,现已转变为从人工智慧模型推论出各项妥适的可行方案。

回到事件原点,王义川所言,利用手机信令资料分析方法即可进行相关比对,是不可行的。即使经由妥善去识别化后的统计资料,顶多只能知道二十至三十岁有多少比率、六十岁以下有多少比率,不可能知道哪一天跟哪一天的人群是不是同一群人,因此其中的黑箱作业实令人匪夷所思!

最后很想问的问题是,执政党凭什么可以获取电信公司的使用者个资进行分析?为什么执政者可以用手机讯号监看人民行动?为什么民进党可以取得如此隐私且敏感的大数据进行比对分析?而且是跨县市与年代的一场一场又一场监控资讯?为什么执政党想怎么过滤分析就怎么利用,却可不管人民同不同意、知不知情或喜不喜欢?此情此景,不禁令人想起苏联共产制度下的警察国家,其嚣张做法与当年促转会张天钦胡作非为的东厂风波几乎如出一辙。当家执政,能不慎乎?