人人都是大说谎家!  但大数据能看穿你的真心

图文/镜周刊「认识你自己」是刻在德尔斐的阿波罗神庙上的箴言之一。如何认识真实的自我,一直是千百年来人们思考的大问题

如今,有数据科学家提供了一个新答案。透过大数据,从谷歌的搜寻引擎中人们有可能找到更逼近与真实的自我。

我们对世界的认识充满了扭曲和谬误,因为人人都会说谎。

这是纽约时报专栏作家前谷歌数据科学家大卫道维兹(Seth Stephens-Davidowitz)五月份推出的新书《每个人都说谎:大数据、新数据、以及网路能告诉我们的真实自我》(Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are )提出的结论之一。

他挖掘过去五年来人们在谷歌搜寻的数据进行分析,展示了人们私底下在搜寻引擎输入的字词和问题和他们对外宣称的主张并不匹配。

照书中的说法,每个人都会对自己的朋友情人和医生说谎,对市场调查人员说谎,甚至,我们也对自己说谎。但是,如今透过大数据,我们或许有更好的方法来解读真实的内心世界。

大卫道维兹在纽约时报的另一篇专栏里提醒我们,别让社群网站让我们生活更悲惨。他说:「我们隐隐约约知道,其他人不可能像他们在脸书上呈现的那般风光、有魅力、有余裕、兼具知性和幽默欢乐,但是人们可能不由自主会把自己的内在世界,拿来和他人在脸书精心布置的世界相比较。」

不过,数据告诉我们,真实世界和脸书的世界天差地远:

比如说,获新闻奖无数、声誉卓着的《大西洋期刊》,它在脸书上的按赞数,是专报八卦丑闻的《国家询问报》按赞数的45倍。不过,国家询问报整年的销售量,却是大西洋期刊的三倍。

在赌城拉斯维加斯,廉价旅馆Circus Circus和豪华酒店Bellagio一年的住宿人数大约相当。但是在Bellagio的脸书打卡的人数,是Circus Circus的三倍。

又比如,肠躁症和偏头痛美国普遍的程度相当,各自苦恼着约10%的美国人。不过受偏头痛症状所苦的人在脸书上成立咨询协助社团,是肠躁症的2.5倍。

这些数据说明,人们确实存在着心理学上所谓的「社会期许偏误」(social desirability bias)。在社群网站上,我们会放大、缩小、或扭曲自我形象,已符合自己想像中,别人对我们的期待。

不过,人虽然会说谎。大数据却比较不可能说谎。我们不愿向情人、朋友、大众说真心话,但从谷歌搜寻、维基百科条目、脸书的广告点击、到约会网站、甚至色情网站,它们默默收集了人类被动且是自愿贡献的的数据,记录着人们真实的行为和动机

举例来说,从网路数据看历史统计,「搜寻色情影片次数多于查看天气的次数」。但是在接受调查访问时,只有25%的男性和8%的女性承认他们会看。

在《时代杂志》知名专栏作家史坦(Joel Stein)对大卫道维兹的专访中,作者提供了自己网路搜寻纪录,请大卫道维兹帮他用演算法进行分析,得到一些及有趣(对作家本人而言有点可怕)的发现。

比如说,在网路搜寻关于史坦的相关问题,排名第一的是「史坦是不是同志」。根据大卫道维兹的说法,问某某人是不是gay竟然是网路常见的问题。

演算法也发现,史坦最常搜寻的字词是Joel Stein,也就是自己的名字。这似乎证明了史坦有点自恋,因为一般人并不常这么做。

更让人尴尬的是,史坦每次搜寻某个女性名人之后,有5%的机率接下来会搜寻她们的裸照。据大卫道维兹的解释,5%是一般男性的正常值。不过史坦较「不正常」的是,在网路上,他最常搜寻的名人裸照是他自己,Joel Stein!

大卫道维兹的书中另一个有趣的论点是,透过演算法,别人可以比你更了解你自己。

他透过Netflix的演算法来说明论点。Netflix在早期会让用户自己来排定未来想看的影片。不过,过几天后,当Netflix提醒用户自己挑选过的电影时,很少人会真正点击观看。

问题出在哪里?

询问用户他们以后打算看什么影片,他们往往会在名单上填上充满雄心的、有深度的选项,像是二次世界大战黑白纪录片、或是严肃的外国电影。

但是几天之后,他们会看的还是他们通常想看的电影:笑闹片或是浪漫爱情片。

人性如此持续地欺骗自己,所以Netflix后来干脆不再问用户未来想要看什么影片,而是根据相类似用户的观赏影片做推荐。结果效果奇佳。演算法比你更清楚知道你自己。前Netflix的数据科学家阿马崔恩(Xavier Amatriain)

原来,最了解自己的未必是自己。

大卫道维兹说,其实靠人们缺乏自知之明来赚钱的并不只有Netflix。许多健身中心大力招收缴交年费或月费的会员,也是充分运用人们这种过度乐观的心理。

他说,事实上大部分人都是每一次上健身房付一次费用比较划算。但是,绝大多数的人还是会买下月份或年度通行卡,雄心勃勃规划自己的健身美梦。

许多金融企业如今都已利用大数据来预测经济走势,因为它比政府机关公布的经济数据更即时,更有未来性。在搜寻引擎中「聆听」讯息,有助人们掌握先机。

大卫道维兹在书中举的是「失业率」的例子。谷歌的科学家发现,当失业率有上升的迹象时,几个关键词的搜索频率会明显增加。搜寻增加比例最高的居然是某个色情网站!而游戏网站则紧追在后。不过细想之下也有其道理,因为失业率即将上升,有一些人开始有大把的空闲时间,而且经济也还没开始衰退,自然会想「先轻松一下,给自己放几天假。」这对经济政策的制定者来说,或许他就可以知道,什么时候该开始推出因应对策。

大数据甚至对男女约会交友也有用处。

书中提到如何判断男女约会时对彼此有好感研究人员用影音纪录了参加快速约会的异性恋男女,然后分析这些人对于在往后进行第二次约会的兴趣

从第一次约会中男女所说的话来分析,可以推估他们可能想进一步交往的机会。

对女性而言,谈话时提到自己经常使用「我」这个字,可能是传递有兴趣的讯息。相反地,对话里常常出现「有点」、「类似」、或「也许」这类含混闪烁的词,则是对对方没兴趣。而男性对第一次约会对象有好感时,较常用低沈单一的语调讲话。而他对女方说的笑话大笑,或是频频向对方表达支持鼓励的话,(「那一定很不容易」、「好辛苦」...),可能得到较有二次约会的机会。

在大西洋期刊对大卫道维兹专访中,话题专注在《人人都说谎》这本书探讨的另一个重大主题:搜寻数据所透露人们对性爱的焦虑和不安。

人们向搜寻引擎倾吐了平时不便向家人朋友启齿,但渴望知道答案的问题,诸如性行为的持续时间、频率,或对性器官尺寸大小的忧虑。(对这些主题有兴趣读者,可参考网路上有简体字版的翻译。)https://www.xcnnews.com/kj/66760.html

这些分析有些结论饶富趣味而发人深省。比如说,网路搜寻显示,已婚女性关心「我的丈夫是不是同志」要比「我的丈夫有没有在外面偷吃」高出许多。尤其在田纳西、密西西比或南卡罗来纳这些美国对同志议题较保守的州,这类求助网站如何知道枕边人是否同志的搜寻,比想知道自己丈夫是否偷腥高出十倍。不过就理论上,这些男人其中多数可能不是同志,或只不过是对婚姻生活抑郁寡欢。

这个搜寻结果也符合人性,有些男性遭女性拒绝时可能的疑问也是「她会不会是女同志?」, 它反映的人们遭到否定时,基于本能的心理防御机制

另一个让人感到意外的,是关于色情影片中的性暴力情节。照书中的说法,依据谷歌搜寻的数据,这类型影片受女性欢迎的程度远高于男性,它可以说是女性最欢迎的色情影片类型

但是这个讯息本身存在很大的误解危险。得知这个讯息后,人们是否会认为性侵害并不是那么可怕的犯罪?

但事实当然绝非如此。大卫道维兹认为,这是种性幻想,并不代表真实生活的期待。这有点类似于惊悚的恐怖电影。它也很受女性观众的欢迎,但是喜欢电影里被绑架的情节,并不是希望自己在现实生活里被人绑架。

大卫道维兹提到自己当初写书的动机,是想要研究关于种族歧视的问题,关于人们内心的真实想法和接受民调访问时的说法之间的歧异。

他说,九成九的人们接受访问时,多半说他们不在意欧巴马总统个是黑人。但是,同样这些人在搜寻引擎却出现一大堆关于种族歧视的骇人搜寻。数据很清楚显示,许多美国人没有把票投给欧巴马的原因,正因为他是黑人。你可能嘴巴说,某人是黑人或女性无关紧要,但心里实际的想法却影响你的行动。大卫道维兹,纽时专栏作家

在写书的过程中,大卫道维兹认为他得到两个最大的心得。第一点有点令人沮丧而且震惊:人们可能口中说一套,而做出完全不同的事。在讲礼貌、重视文明的社会里,黑暗的想法在人们心头真实存在着。这让作者对世界感到些微不快,这个世界有点令人恐惧害怕。

不过,第二个发现是,社会中存在着普遍的不安全感,这又让他感到稍微好过一些。大卫道维兹说,人们在「前台」的演出,不管是对朋友或是在社群媒体上,努力表现得彼此相依相持、有自信、行止合宜,但是每个人其实都存在着焦虑,每个人都有精神上的困扰。这或许可以让我们感到自己不孤单,也让我们对于他人更有同理和同情的心。

底下是作者在big think网站对这本书的讨论:

参考资料:

Everybody lies: What the internet can tell us about who we really are(Bloomsbury)

That time an algorithm whisperer took me to the heart of darkness(Time)

Our searches, ourselves: Google reveals the truth about people's romantic insecurity(The Atlantic)

Don't let Facebook make you miserable(The New York Times)

A former Google data scientist explains why Netflix knows you better than you know yourself(Business Insider)

更多镜周刊报导听见金融海啸的声音... 网路新工具将图表化为钢琴音阶你用「川普演算法」买股吗?川普推文成华尔街投资新明灯脸书交友延年益寿?最新研究有此结论