AI助攻 Facebook 2020年Q4主动侦测并下架97.1%仇恨言论贴文

为了让你能在Facebook不要看见有害内容,Facebook持续开发AI,并且透过全球审查团队进行内容审查。(达志影像/Shutterstock提供)

你习惯使用Facebook社群平台吗?Facebook为了让使用者能在平台上持续感受到够安全,能安心发言,也不会受到其他用户仇恨言论的攻击,其实在背后投资大量人力物力,要让这些含有仇恨言论,让你看起来觉得心里不舒服的贴文内容,有97.1%(2020年Q4数据)在你甚至都会看见之前,就已经被撤下,让Facebook成为更令人感到安心的社群平台。

Facebook 亚太区内容政策经理 Manu Gummi。(Facebook 提供/黄慧雯台北传真)

【制定政策】

Facebook 亚太区内容政策经理 Manu Gummi在线上会议中分享,如果用户不会因为自己的身份被攻击,他们便能更自在地发言和交流。有鉴于此,Facebook 不允许平台上出现仇恨言论。因为这类言论会造成整个环境充斥着恐吓与排挤,有时甚至可能会助长实体世界中的暴力行为。因此,Facebook内容政策团队参考了科技公共安全人权领域的独立专家所提出的意见,在「社群守则」政策中明订了平台上可允许及禁止的内容与行为。

当前,Facebook 内容政策团队全球共有 11 处办公室,团队由不同领域的专家组成,例如恐怖主义、仇恨言论和儿童安全。这些专家隶属于规模更大的 Facebook 团队,当中共有超过 35,000 人负责处理安全问题,其中也包含超过 15,000 位的内容审查员

为了跟上不断变化的网路行为,Facebook内容政策团队每两周召开政策论坛(Policy Forum),与会者除了全公司的专家,有时甚至会邀请记者和学者出席会议,来共同讨论如何修正「社群守则」及广告政策。这对仇恨言论等政策相当重要,因为网路用语的意义瞬息万变,前天才出现的词汇,隔天便可能成为伤人的用语。因此,「社群守则」可谓是持续滚动式修正的。而为了使Facebook内容政策团队的业务透明化,每一场政策论坛结束后,皆会发布会议记录,及更新政策调整内容。

定义仇恨言论 】

仇恨言论在全球并没有公认的定义。虽然有些国家立法禁止仇恨言论,但各自的定义却大不相同。而Facebook 将仇恨言论定义为针对受保护的特征,直接攻击他人。该定义是在进行对外大量研究,并咨询许多独立专家后所得出的。

一、什么是直接攻击?Facebook 对攻击的定义如下:暴力或抹灭人性(非人化)的言论、有害的刻板印象、贬低性的陈述、表达轻蔑、憎恶或轻视、咒骂、鼓吹排挤或隔离。

二、什么是受保护的特征?Facebook 受保护特征的定义如下:种族、民族/族裔国籍、身心障碍、宗教信仰、种姓社会阶级、性倾向、性别、性别认同、 重大疾病。若年龄与其他受保护特征被一同提及,Facebook也会将年龄视为受保护的特征。对于其他与受保护特征一并参考的特性(如职业),Facebook 也提供保障。Facebook 也会保护难民、移民、外来移民和寻求政治庇护者,让他们免于遭受严重攻击,但允许对移民政策的评论和批判。

三、这项政策保障的对象是谁?

Facebook 的仇恨言论政策涵盖以个人或群体为对象的仇恨言论或图像,但不包含以实体、意识形态或机构为对象的言论或图像。

举例来说,在 Facebook 上「我恨基督徒」这句话属于仇恨言论且不被允许,因为对象指的是一群人,但「我恨基督教」指的是一种意识形态,因此不会被禁止。

四、攻击程度:Facebook 将攻击分为三种严重等级并明列在《社群守则》中。

(1)第 1 级:暴力言论、特定抹灭人性(非人化)的比喻、抹灭人性(非人化)的言论、嘲笑仇恨犯罪的概念或受害者

(2)第 2 级:贬低性的陈述,包含生理面、心理面、道德面或泛称;表达鄙视或厌恶;咒骂

(3)第 3 级:号召排挤或支持隔离,包含明确表达排挤行为、或涉及政治、经济或社会面上的排挤

也就是说,当你因为上述的「受保护的特征」,例如种族、性倾向等,受到直接攻击,且无论攻击的严重等级,Facebook都会针对所分享出来的贴文、照片、图片等进行处置。

【处理 Facebook 平台上的仇恨言论问题】

透过 Facebook 家族应用程式中提供的工具,Facebook 确保使用者自由管理他们分享的内容和对象、看到的内容,以及谁能与他们联系。换句话说,使用者也可采取以下方式来进行自我保护。包含:

一、隐私设定检查:用户可以进一步了解分享内容的对象、保障帐号安全的方式、其他人可在 Facebook 上找到用户的方式、在 Facebook 上的资料设定

二、留言控制选项(Comment controls):用户可以从选单中选择适当对象,范围从可以查看贴文的用户到仅限标注的用户及粉丝专页,控制可以在特定公开贴文留言的对象。

三、分享对象选择器:每当用户在 Facebook 发布任何内容时,都可以运用「分享对象选择器」,选择谁能看到该内容。用户可以选择与所有人分享,也可以选择只与朋友甚至是自订对象分享。

四、检视角度:如果用户是以电脑使用 Facebook,便可使用「检视角度」工具,查看其他人看到个人档案的外观,如此用户便能确保隐私和帐户安全设定符合自身需求。

五、标签审查和动态时报审查:「标签审查」可让用户批准或隐藏在贴文中加入的标签;「动态时报审查」则让用户决定他们被标注在内的贴文是否能显示在他们的动态时报。

六、暂停追踪和取消追踪:「暂停追踪」和「取消追踪」让用户进一步控制在 Facebook 平台上与谁联络。「暂停追踪」可让用户选择隐藏用户、粉丝专页或社团 30 天,而不需永久取消追踪对方或从朋友名单中移除。「取消追踪」则让用户保留朋友关系,但对方的内容不会显示在他们的动态消息中。

【执行政策】

Facebook 会参考社群的检举及内部团队的检视,并运用相关技术辨识与检视违反社群守则的内容。随着技术的进步,Facebook 在解决平台上的仇恨言论取得了重大进展。如 Facebook 的社群守则执行报告所述,在 2019 年 12 月至 2020 年 12 月间,Facebook 采取行动的仇恨言论数量攀升近 400%。

2017 年第 4 季,Facebook 首度纳入仇恨言论衡量数据,当时的主动侦测率为 23.6%。换言之, Facebook 移除的仇恨言论中,Facebook 主动发现而非用户检举的比例是23.6%。2020 年第 4 季,Facebook 的主动侦测率攀升至 97.1%,换言之,在短短 3 年内,Facebook 的主动侦测率升幅超过 320%。

根据Facebook 的社群守则执行报告所述,2020 年第 4 季Facebook 的主动侦测率攀升至 97.1%。对比2017 年第 4 季仇恨言论主动侦测率为 23.6%。换言之,在短短 3 年内,Facebook 的主动侦测率升幅超过 320%。(摘自Facebook)

以盛行率来看,用户在 Facebook 平台上每浏览 1 万则内容,约仅有 7 至 8 则内容包含仇恨言论。

Facebook 在处理仇恨言论问题方面的进步,可归功于下列几个领域的人工智慧科技发展:

一、XLM-R 或语言理解(lingual understanding):能够建立机器学习分类器,分析多种语言中的相同概念,在一种语言中的学习成果可以改善在另一种语言中的成效。对于网路上较不常用的语言来说,这项科技格外实用。

二、全文解读(Whole post understanding)或 WPIE:从整体角度检视贴文的能力,不论是图像、影片或文字,并同时找出各种违反政策的问题,而不需执行多种分类器。

此外,Facebook 也运用人工智慧技术,在考量以下几种因素后,优先处理需要审查的内容:

一、传播力:与无人分享或观看的内容相比,疑似违规疯传内容将会更优先获得处理。

二、严重性:与自杀、自残或儿童剥削等可能造成真实生活伤害相关的内容,优先处理顺序将高于如垃圾讯息等伤害程度较低的内容。

三、违规可能性:若有讯号显示某内容可能与其他违反政策的内容相似,将优先被处理,顺序将高于看似未违规的内容。

Facebook 透过上述方式来决定内容的优先处理顺序,而非内容在平台的分享时间、或是由用户检举或 Facebook 主动侦测,这让 Facebook 能优先处理违规最严重的内容。基于当前已投注努力所获得的成果,Facebook也明了他们的工作乃是永无止尽,但也对目前的成果感到振奋,且对于未来运用人工智慧科技侦测仇恨言论将更有信心。