呻吟声也通!最强「AI鉴黄师」上线 一日过滤亿张色情图

▲阿里巴巴集团公布「AI鉴黄」技术,透过演算法过滤色情图片。(图/翻摄自环球网

大陆中心综合报导

阿里巴巴集团安全部日前公布最新的「AI鉴黄」技术,透过演算法过滤每天上亿张可能涉及色情的图片,可提升2000倍的效率,减少「人工黄师人力的需求、提高鉴别准确度。近期已经上线公测,语音影片多媒体领域,并支援中文英文日文俄文等多国语言,甚至无语义的呻吟声也能识别。

根据澎湃新闻报导,如果一天要审核4亿张图片,单纯以人工进行,每人一天审1万张,就需要4万人。透过「AI鉴黄」后,交给人工审核的数量大概剩20万张,只需要20人就能完成相同的工作整体提升2000倍的效率,大大节省人力。

▲「AI鉴黄」认为是色情的图片。(图/翻摄自澎湃新闻)

阿里巴巴的鉴黄AI原理,是将图像分类,在标注样本后使用深度学习技术训练人工神经网络步骤为分类标准、收集样本、样本打标,最后是模型训练,其中前三个步骤是人工完成,而花最久时间的是第一步。相关人士透露,「露点不露点」之类的色情,就有比较明确的判断标准,但对于低俗和性感类的争议就比较多。以儿童色情为例,儿童露点发生在男孩女孩结果有别,不同年龄发育也可能在模糊边缘

AI鉴黄团队在收集样本的过程中要「集思广益」,浏览了近2000家网站,下载超过6000万张疑似色情的图片,采用约2300万张图片,最后实际标注超过1300万张图片。这1300多万张图片就是类比训练的原始资料库,因此这一浩大的工程,被技术人员认为是「鉴黄引擎」成功最重要的基石

▲「AI鉴黄」认为是色情的图片。(图/翻摄自澎湃新闻)

尽管AI让鉴黄的效率大幅提升,但带有主观个人意识或者群体意识等模棱两可的场景,是人工审核不会被取代的原因。阿里巴巴安全部产品专家念夏表示,已知、有清晰标准定义的,AI都能解决;真正的难点是恶意的突发事件,由于之前对该事件或场景缺乏标准的定义,交给AI及时处理是不可能的,目前AI鉴黄最好的应用模式还是人工加上机器