轻易制造小错误 你也可以一秒让智慧AI变傻子

▲ AI在现实电影中总是赢过人类,如今人类也有办法赢过AI。(图/CFP/示意图

科技中心/综合报导

无论是在电影还是现实中,人工智慧AI都经常以碾压人类的姿态出现在公众面前,但如今,人类却有办法制造一些「小错误」,大大误导AI判断。

在电影《魔鬼终结者》中的T800机器人一登场,第一件事就是暴揍一群人类,抢走他们的衣服、摩托车和墨镜,全程一副藐视人类的样子;现实中也是如此,2017年下棋AI系统「AlphaGo」,击败围世界级棋手李世乭,每次都把人类选手逼到不得不认输

如此看来,人工智慧发展史简直就是人类一步步被自己发明的 AI 击败的历史。

然而,根据《新浪专栏》报导,就有一个人类调戏AI的趣事。他们发现,有一种操作能欺骗图像识别系统,可以立刻让AI变成傻子

这有一张熊猫侧身照,人类看着是熊猫,图像识别AI也把它认作熊猫。研究人员对这张图里的的某些特定像素进行了一点肉眼无法辨识的扰动。之后,虽然人看着还是熊猫,可AI却会把它识别成长臂猿,而且置信度高达99.3%。

就这样,人类成功欺骗了AI。

在另一个实验中,研究人员对马路上的路标进行了艺术加工,在特定的位置贴了些小纸片,涂抹了些污渍照理说,路标每天在外面日晒雨淋,被弄脏或者贴个小广告也不奇怪,路人通常不会在意。可就因为这些特殊处理,让国外某款自动驾驶汽车变成了傻子。

测试结果显示:左边三个「停止」路标被AI识别为「时速60公里」,最右边的「右转」被AI识别成了「停止」。

一开始,人们以为这是某个特殊条件偶然触发了BUG,可后来研究人员发现,这个问题在图像识别领域普遍存在。除了图像识别,声音识别等其他领域的AI应用也出现了类似问题,这时人们才发现,原来这是所有机器学习的通病

而后,一位研究AI安全的百度资深安全研究员兜哥表示,机器学习的基本原理其实不难。

以图像识别为例,让AI去识别猫和狗,本质上就是让AI去做「分类」,把长得差不多的图像归类到一起。例如,让机器学习模型区分一堆红球绿球,模型的分类器会不断试探,最终在函数图上画出一条分界线,完美区隔红绿球;区分猫和狗,其实也就是摸索出这么一条线。

那么想成功欺骗AI,只需要在分界线附近随便找一个点,略微修改它的参数,让它移动到函数图上分界线的另一侧,这种「像素级」轻微改动,放到一张图片里,肉眼通常看不出来,但机器的判定结果却会发生变化,于是便实现了文章开头的欺骗效果。

研究人员把这种小幅度修改后能够改变AI判断结果,但人类感官无法辨别的数据样本统称为「对抗样本」。要找到某个图片的对抗样本,本质上就是想办法让它以最小的改动,移到分界线另一侧,因辨识分界线附近的样本最容易被弄混,所以很容易被找到「对抗样本」,让机器傻傻分不清楚。

此外,研究人员还发现了一个有意思的情况:「由于很多种AI模型,祖上是一家」,它们是从同一套算法/模型里衍生出来的,所以其实缺陷都差不多。意思是,如果你想对付A模型,只需要先在B模型里找到一个对抗样本,再直接拿到A模型里使用,很多时候都能直接起效,研究人员把这种特性称为「攻击的迁移性」。

对抗样本攻击具有迁移性,这也就意味着未来这种攻击方式会在人工智能领域变得很普遍。兜哥说,「如今AI应用地非常广泛,比如AI金融欺诈、AI鉴别色情图片、AI拦截垃圾邮件等等,未来一旦黑产利用出现这类攻击手法,很可能导致AI反不了金融欺诈,拦截垃圾邮件失败,鉴别不出色情图片等等,想想都刺激。」

至于如何预防AI更容易被攻击、迷惑,其实也是有方法的。

1. 对抗训练

这方法有点类似给人类小孩打疫苗,开发者可以提前用各种「对抗攻击」把自己的模型调教一遍,尽可能找出所有「对抗样本」,再把这些对抗样本扔进模型里,进行专项训练。这样训练出来的模型就会更加「健壮」,不再惧怕这些对抗样本。

2.数据增强

所谓数据增强,就是指训练的时候就加入一些随机的干扰,相当于训练模型时给数据都打上马赛克,让AI模型在模糊的环境下训练,最终让它达到一种「阅片无数,有码胜似无码」的境界。显然,如果AI模型在戴上眼镜的情况下都能认出一个物体,那么就不怕黑客再修改什么像素点了。

就像下面这四幅画,糊成这样都能认出来,这种图片别说改变像素来迷惑你了,就连破坏一个部分你也能认出来。

3.特征挤压

所谓特征挤压,可以理解为数学里的四舍五入。AI模型在识别一些数据时,人为给数据进行取整,这样就能避免掉一些小数位上的扰动。这种方法跟前面第一种有点像,不过一个发生在训练过程,一个发生在运行过程。

为了研究这种攻击方式,百度安全实验室几年前就内部研发了一个名叫AdvBox 的「对抗样本攻防工具包」,把很多主流的对抗样本攻击算法和防御方法打包成工具包,专门给百度自家的AI系统做安全检测。今年,他们决定把这项安全能力分享给全球的AI开发者和安全研究人员,把AdvBox项目开源在“全球最大的同性交友网站”Github上。

这个项目号称不仅能攻击静态图片,还能攻击语音、文本和视频,并且同时支持白盒攻击攻击甚至是「物理攻击」。一般情况下,物理攻击其实较难实现,因为即便攻击者找到了对抗样本,在现实世界构造图案时也常常会受到拍摄角度、位置、光照强度、图案的色差等等因素影响,而文章开头提到的在路标上粘东西骗过AI的操作就属于「物理攻击」。

哪怕是进化了几千万年的人类大脑,也会出现这样那样的「漏洞」,更别说才刚刚面世不久的AI。或许再过不久,专门黑人工智慧的「AI骇客」就会出现,可能让未来的科技世界充满想像,但也可能更危机四伏。

图片来源:《新浪专栏》

版权声明:图片为版权照片,由CFP视觉中国供《ETtoday新闻云》专用,任何网站、报刊、电视台未经CFP许可,不得部分或全部转载,违者必究!