AI助攻 Facebook 2020年Q4主动侦测并下架97.1%仇恨言论贴文
为了让你能在Facebook不要看见有害内容,Facebook持续开发AI,并且透过全球审查团队进行内容审查。(达志影像/Shutterstock提供)
你习惯使用Facebook社群平台吗?Facebook为了让使用者能在平台上持续感受到够安全,能安心发言,也不会受到其他用户仇恨言论的攻击,其实在背后投资大量人力物力,要让这些含有仇恨言论,让你看起来觉得心里不舒服的贴文内容,有97.1%(2020年Q4数据)在你甚至都会看见之前,就已经被撤下,让Facebook成为更令人感到安心的社群平台。
Facebook 亚太区内容政策经理 Manu Gummi。(Facebook 提供/黄慧雯台北传真)
【制定政策】
Facebook 亚太区内容政策经理 Manu Gummi在线上会议中分享,如果用户不会因为自己的身份被攻击,他们便能更自在地发言和交流。有鉴于此,Facebook 不允许平台上出现仇恨言论。因为这类言论会造成整个环境充斥着恐吓与排挤,有时甚至可能会助长实体世界中的暴力行为。因此,Facebook内容政策团队参考了科技、公共安全和人权等领域的独立专家所提出的意见,在「社群守则」政策中明订了平台上可允许及禁止的内容与行为。
当前,Facebook 内容政策团队全球共有 11 处办公室,团队由不同领域的专家组成,例如恐怖主义、仇恨言论和儿童安全。这些专家隶属于规模更大的 Facebook 团队,当中共有超过 35,000 人负责处理安全问题,其中也包含超过 15,000 位的内容审查员。
为了跟上不断变化的网路行为,Facebook内容政策团队每两周召开政策论坛(Policy Forum),与会者除了全公司的专家,有时甚至会邀请记者和学者出席会议,来共同讨论如何修正「社群守则」及广告政策。这对仇恨言论等政策相当重要,因为网路用语的意义瞬息万变,前天才出现的词汇,隔天便可能成为伤人的用语。因此,「社群守则」可谓是持续滚动式修正的。而为了使Facebook内容政策团队的业务透明化,每一场政策论坛结束后,皆会发布会议记录,及更新政策调整内容。
【定义仇恨言论 】
仇恨言论在全球并没有公认的定义。虽然有些国家立法禁止仇恨言论,但各自的定义却大不相同。而Facebook 将仇恨言论定义为针对受保护的特征,直接攻击他人。该定义是在进行对外大量研究,并咨询许多独立专家后所得出的。
一、什么是直接攻击?Facebook 对攻击的定义如下:暴力或抹灭人性(非人化)的言论、有害的刻板印象、贬低性的陈述、表达轻蔑、憎恶或轻视、咒骂、鼓吹排挤或隔离。
二、什么是受保护的特征?Facebook 受保护特征的定义如下:种族、民族/族裔、国籍、身心障碍、宗教信仰、种姓/社会阶级、性倾向、性别、性别认同、 重大疾病。若年龄与其他受保护特征被一同提及,Facebook也会将年龄视为受保护的特征。对于其他与受保护特征一并参考的特性(如职业),Facebook 也提供保障。Facebook 也会保护难民、移民、外来移民和寻求政治庇护者,让他们免于遭受严重攻击,但允许对移民政策的评论和批判。
三、这项政策保障的对象是谁?
Facebook 的仇恨言论政策涵盖以个人或群体为对象的仇恨言论或图像,但不包含以实体、意识形态或机构为对象的言论或图像。
举例来说,在 Facebook 上「我恨基督徒」这句话属于仇恨言论且不被允许,因为对象指的是一群人,但「我恨基督教」指的是一种意识形态,因此不会被禁止。
四、攻击程度:Facebook 将攻击分为三种严重等级并明列在《社群守则》中。
(1)第 1 级:暴力言论、特定抹灭人性(非人化)的比喻、抹灭人性(非人化)的言论、嘲笑仇恨犯罪的概念或受害者
(2)第 2 级:贬低性的陈述,包含生理面、心理面、道德面或泛称;表达鄙视或厌恶;咒骂
(3)第 3 级:号召排挤或支持隔离,包含明确表达排挤行为、或涉及政治、经济或社会面上的排挤
也就是说,当你因为上述的「受保护的特征」,例如种族、性倾向等,受到直接攻击,且无论攻击的严重等级,Facebook都会针对所分享出来的贴文、照片、图片等进行处置。
【处理 Facebook 平台上的仇恨言论问题】
透过 Facebook 家族应用程式中提供的工具,Facebook 确保使用者自由管理他们分享的内容和对象、看到的内容,以及谁能与他们联系。换句话说,使用者也可采取以下方式来进行自我保护。包含:
一、隐私设定检查:用户可以进一步了解分享内容的对象、保障帐号安全的方式、其他人可在 Facebook 上找到用户的方式、在 Facebook 上的资料设定
二、留言控制选项(Comment controls):用户可以从选单中选择适当对象,范围从可以查看贴文的用户到仅限标注的用户及粉丝专页,控制可以在特定公开贴文留言的对象。
三、分享对象选择器:每当用户在 Facebook 发布任何内容时,都可以运用「分享对象选择器」,选择谁能看到该内容。用户可以选择与所有人分享,也可以选择只与朋友甚至是自订对象分享。
四、检视角度:如果用户是以电脑使用 Facebook,便可使用「检视角度」工具,查看其他人看到个人档案的外观,如此用户便能确保隐私和帐户安全设定符合自身需求。
五、标签审查和动态时报审查:「标签审查」可让用户批准或隐藏在贴文中加入的标签;「动态时报审查」则让用户决定他们被标注在内的贴文是否能显示在他们的动态时报。
六、暂停追踪和取消追踪:「暂停追踪」和「取消追踪」让用户进一步控制在 Facebook 平台上与谁联络。「暂停追踪」可让用户选择隐藏用户、粉丝专页或社团 30 天,而不需永久取消追踪对方或从朋友名单中移除。「取消追踪」则让用户保留朋友关系,但对方的内容不会显示在他们的动态消息中。
【执行政策】
Facebook 会参考社群的检举及内部团队的检视,并运用相关技术辨识与检视违反社群守则的内容。随着技术的进步,Facebook 在解决平台上的仇恨言论取得了重大进展。如 Facebook 的社群守则执行报告所述,在 2019 年 12 月至 2020 年 12 月间,Facebook 采取行动的仇恨言论数量攀升近 400%。
2017 年第 4 季,Facebook 首度纳入仇恨言论衡量数据,当时的主动侦测率为 23.6%。换言之, Facebook 移除的仇恨言论中,Facebook 主动发现而非用户检举的比例是23.6%。2020 年第 4 季,Facebook 的主动侦测率攀升至 97.1%,换言之,在短短 3 年内,Facebook 的主动侦测率升幅超过 320%。
根据Facebook 的社群守则执行报告所述,2020 年第 4 季Facebook 的主动侦测率攀升至 97.1%。对比2017 年第 4 季仇恨言论主动侦测率为 23.6%。换言之,在短短 3 年内,Facebook 的主动侦测率升幅超过 320%。(摘自Facebook)
以盛行率来看,用户在 Facebook 平台上每浏览 1 万则内容,约仅有 7 至 8 则内容包含仇恨言论。
Facebook 在处理仇恨言论问题方面的进步,可归功于下列几个领域的人工智慧科技发展:
一、XLM-R 或语言理解(lingual understanding):能够建立机器学习分类器,分析多种语言中的相同概念,在一种语言中的学习成果可以改善在另一种语言中的成效。对于网路上较不常用的语言来说,这项科技格外实用。
二、全文解读(Whole post understanding)或 WPIE:从整体角度检视贴文的能力,不论是图像、影片或文字,并同时找出各种违反政策的问题,而不需执行多种分类器。
此外,Facebook 也运用人工智慧技术,在考量以下几种因素后,优先处理需要审查的内容:
一、传播力:与无人分享或观看的内容相比,疑似违规的疯传内容将会更优先获得处理。
二、严重性:与自杀、自残或儿童剥削等可能造成真实生活伤害相关的内容,优先处理顺序将高于如垃圾讯息等伤害程度较低的内容。
三、违规可能性:若有讯号显示某内容可能与其他违反政策的内容相似,将优先被处理,顺序将高于看似未违规的内容。
Facebook 透过上述方式来决定内容的优先处理顺序,而非内容在平台的分享时间、或是由用户检举或 Facebook 主动侦测,这让 Facebook 能优先处理违规最严重的内容。基于当前已投注努力所获得的成果,Facebook也明了他们的工作乃是永无止尽,但也对目前的成果感到振奋,且对于未来运用人工智慧科技侦测仇恨言论将更有信心。