經濟選書/AI科學家 展開新視界之旅

《AI科学家李飞飞的视界之旅》书封。 天下文化/提供

「猿猴」?我的老天啊。

这是Flickr(隶属于Yahoo的图片托管服务)在2015年5月自动生成的标注,但标注的是56岁黑人男子威廉的黑白肖像照。民众之间迅速掀起一场义愤,但这还只是Flickr新技术一连串错误的开端,像是后续曾把一张达浩(Dachau)集中营大门的照片标成「丛林健身房」,也曾再一次把人标成「猿猴」,只不过这次是一名脸上涂着彩色粉末的白人女性。

出错的不只有Yahoo;时至6月,Google的Google相簿也惹出类似的争议,把两位黑人青少年标成「大猩猩」。短短几周,原本殆无疑义的图像分类成功故事,忽然变得有点一言难尽。

就算是我们这些没在惹议公司上班的人,也很难不觉得有点愧疚。那些错误绝非出于恶意,但这么说实在算不上安慰,因为如此一来,可见问题更令人不安:错误起因包括了资料集不够多样化(包括ImageNet在内),演算法并未经过充分测试,以及决策过程值得质疑。

如果网际网路上的日常生活景象主要就是白人、西方人、还通常为男性,我们得到的技术也就很难用来了解其他类型的人。

这无可避免地导致记者兼评论员克拉克(Jack Clark)所谓AI「男山男海」(Sea of Dudes)的问题:科技行业的组成不够多元、缺乏代表性,使得演算法在无意之间出现了偏见,只要遇上非白人、非男性使用者,就表现不佳。

克拉克的文章于2016年发表在《彭博商业周刊》,后续也有愈来愈多人加入对话,共同讨论AI如何一念为善(支持残疾人士、追踪森林遭到砍伐摧毁的情形,以多种新的方式保护人类生命),但也可能一念为恶。

我回想起当初还在辛苦打造ImageNet的那些年,就算是当时那些最具创意、即兴挥洒的我们,基本上也对这样的问题一无所知。

十年前,在Google与维基百科的组织下,关于这个世界的内容爆炸般成长,似乎打开了一扇窗,让人可以望见人类生活最真实的面貌,而不只是像电视或报纸那些传统媒体狭隘地匆匆一瞥。

当然,在某种程度上,Google与维基百科确实达到了这样的效果。然而,虽然这样呈现的面貌极其生动、我们也对此深怀期许,但这样看到的景象与真正完整的全貌却还有很大的距离。

这是个我们早就该面对的问题,但光是像这样的对话,还不足以让我心里的工程师觉得满意。虽然当中的问题显然有一大部分在于资料集不够平衡,但也还有其他无数因素得加以考虑。演算法的模型呢?受到这些资料影响的演算法当中,是否还隐藏着尚未发现的架构弱点?用来辅助训练过程的学习技巧,会不会也有问题?目前看来,不仅问题的数量比答案更多,比例还愈来愈不平衡。

这些问题也沉甸甸地压在鲁萨科夫丝基的心头上。在这个男性占绝大多数的领域里,我们两个身为相对少数的女性,多年来可说是惺惺相惜,对于女性做AI研究这件事,种种不愉快的体验也极为相似。等到2010年代中期,她实在觉得受够了,决定要不做点什么,要不就彻底离开学术界。她最后选择了前者,而我们也决定携手合作。

(摘自《AI科学家李飞飞的视界之旅》,天下文化出版)

延伸阅读