游戏众评到底在评价什么?Metacritic和它带来的问题(中)

本文由爱玩网独家整理编译,转载请保留此行。

上一篇里,我们谈及了众评网MetaCritic的评分极大地影响游戏发行商开发者之间的关系,以及他们的生存状况。今天,我们将会谈谈为什么不应该用一个量化的评分模式,来决定游戏开发者的命运和生死。

为什么众评分不应影响左右?

当第一次听说《辐射:新维加斯》的奖金时,曾有一名Kotaku的游戏编辑撰写了一篇文章,批判发行商以MetaCritic的评分来衡量游戏质量和对开发者的待遇。电子游戏一直以来是一种非常个人体验,老实说这是很难客观地去评价东西,特别是那种武断的打分对不同人来说可能有着不同的意味。比方说,你能解释清81分和82分在质上的差别吗?

发行商们这样做显然有其理由。但也有一些其他情况。其中之一就是,有人在玩弄这个系统。而且他们可能来自这三者(发行商、开发商玩家)之间不同的阵营。

游戏评测是一种很主观的观点,将其模式化和量化地去评判,对游戏业会产生巨大的影响

让我们先来谈谈模拟评测的作者吧。他们的背景是这样:一些发行商和开发者通常会雇佣顾问或游戏评测家前往他们的办公室,让他们玩一款新游戏的开发版,之后让他们撰写一篇模拟评测来预计游戏在MetaCritic上会有怎样的表现。通常来说,发行商和开发商会根据这些评测人士的意见来调整和改进游戏。这类评测者从道德上来说是应该禁止从消费者角度去撰写评测的,因为他们是厂商花钱请来的。

一位化名艾德的某高端游戏工作室的游戏设计师,表示他曾经雇佣过这种评测作者,然后把报告丢进了碎纸机里。艾德说他根本不在乎里面写了什么。他只是想要保证的是,这个名声狼藉的评分员,无法评测他的游戏。艾德知道消灭至少任意一条带来负面评分的内容,他都能让游戏在MetaCritic上获得更高的分数

真正决定这个游戏好玩与否的不是我们和我们的评分,而是作为玩家的你的感受

包括爱玩网和Kotaku在内国内外很多游戏媒体网站的编辑,都是明令禁止撰写这类评测或为我们报道的游戏的发行商撰写类似的稿件。

MetaCritic的经营者道尔表示他也听过类似的事情发生。他说他的工作职责就是严格地审查在MetaCritic上近140篇的评测内容,他会仔细地检查每个评测和评估其有效参考价值。他说:“我一致认为避免人们玩弄评分系统很重要。”想法很美好,然而现实却很残酷。业内人士们也深知这一点。艾德说:“任何能优化我们评分的手段,我们都会去尝试。”

不过有时候事情却很微妙:许多评测活动中,会强迫游戏评测者们从制作商的角度去评测游戏;当分数更高时禁止多元化地评判游戏;挑战这个规则将会被派去办公室谈话并被驱逐。只要MetaCritic对制作游戏的人能造成影响,那么这些厂商永远能找到干涉其的方法。

《超级猴子球》一款超欢乐的派对游戏

而且对于游戏发行商来说比较敏感的是,一些小网站和媒体为了从Metacritic这种站点得到一些流量以便生存,他们可能去会做一些见不得人的交易。Adanced Media Network(现改名为Kombo.com)的游戏记者杰夫·里维拉说,在2006年时他就见过这样的事情了。

他说:“当时我们和世嘉签了一份协议,我们将在流量最高的DS频道上推出为期一周的《超级猴子球》专题。我负责评测,就在我准备发布的前一晚,我的同事问我准备给游戏打多少分。我和他说我还没决定,并很奇怪为何他会问这个,因为以前从未发生过。同事告诉我说世嘉的PR人员说,如果我们评分在8.0以上,将可保证一天的独占报道。”

里维拉当时已经撰写好了评测,然后他给出的分数是8.1.(目前这篇文章已经被删除了,但你仍然可以在Kombo或GameRankings网站在评测文章列表里看到)。里维拉说:“我和他们说我不知道要给多少分,因为我不希望他们感觉我的评分被‘收买’了。告知他们评分我的压力会更大,我就和他们说我不知道,但8.0和我想的差不多。”

这篇《超级猴子球》的评测虽然已被Kombo删除,但MetaCritic上仍然留下了其最初的评分快照

后来有记者就此事询问世嘉时,他们的发言人义正言辞地说:“世嘉有着非常严格的内部规定,禁止用任何手段获得高分评测,或参与干涉评分的行为。”不过里维拉说这事发生在2006年,现在无论世嘉是否加强过他们的规定,至少他们不会公然承认此事的存在(无论是真还是假)。

一些开发商和其他媒体的同行们则表示,这类事情在近些年来有所减少。但传闻和流言依旧不断。开发者会乞求评测方给予更高的分数。PR则在明知游戏不怎么样时,内部将评测版发出去,或将游戏的早期版本发给那些喜欢打高分的网站。

如果你在网络上阅读游戏有关的新闻,你大概会知道一些MetaCritic关联的网站:比如IGN和GameSpot,是付费越高聘请专门的写手或评测人来撰写游戏评测。而MetaCritic名单上其他一些媒体,可能就不那么知名了。一些无论是中国玩家还是美国玩家几乎都从未听闻过的媒体。

其实最大的争议就在于:游戏的好坏真能通过计算来量化评定吗?

为了体现大媒体的重要性,MetaCritic使用了一个权重系统来加强那些重要网站,让他们的评分对整体分数影响更多。但是道尔和他的团队却不肯给出关于这个权重系统的细节。由于这部分的不透明性,使得MetaCritic在近几年来受到了不少争议:其中之一就是福赛尔大学的学术研究称,他们计算出了MetaCritic的评分公式,然而最后发现他们的计算模式是错误的。这使得许多玩家发出了这样的呼声:为什么MetaCritic不干脆公开他们的权重标准呢?

道尔这样说:“在MetaCritic除了评测权重之外所有内容都是透明的。这看起来似乎影响很大,但实际上在我看来正好相反。如果你去掉这些权重,会发现对评分的数字影响不大。”道尔还补充了一些解释:其中之一是他不希望发行商对那些高权重的网站施压。另外一个原因是,MetaCritic经常调整这个权重标准,他们不想公开谈及这些标准的原因,是不希望影响到那些权重较低的网站。

但是人们很难相信那些他们不懂的东西。因此也没人相信众评分是通过计算得来的。

道尔的另外一条规则在最近也是人们热议的话题:在第一次评分之后,无论什么原因MetaCritic都拒绝修改分数。道尔说这个规则已经执行了有一段时间。之所以这么做,是因为自从2001年网站上线以来,许多评测人会因为各种原因更改他们的评分,道尔相信这是因为他们受到了来自发行商的压力。

“作为一名收集大家评测的人,我决定屏蔽一切来自外界的干扰,无论是谁,用什么政策,我们都要保护我们的评测员们,并支持他们第一首最诚实的观点,我们会尽全力保证他们的观点。”

MetaCritic的评分取值是单行线,无论什么原因,只取第一次评分结果

不过有些时候,这种坚持似乎并不太妥当并为MetaCritic带来了一些舆论。2012年底,GameSpot将一位自由撰稿人撰写的《自然法则2》评测撤稿,原因是这篇评测中有许多描述不正确的地方。另外一名写手对这个游戏的评测分数是8分。但是最初一份评测的影响却一直流传到了今天,这款游戏在MetaCritic上评分仍然是60分。

再近一些的事情,Polygon网站会使用可调节的评测分数制度,在上一款《模拟城市发售之前给出了9.5/10的评分。游戏发售之后,由于糟糕的服务器报错问题使得游戏几乎无法进入,Polygon便将分数下降至8分。过了几天之后,服务器登陆的问题依旧没有解决,并引发了玩家的极大不满,于是他们将分数下调至了4分。今天Polygon对这个游戏的评分为6.5,然而你登陆MetaCritic之后仍然会发现他们标记的Polygon打分仍然是9.5。

因为服务器和内容问题而受非议的模拟城市在Polygon的评分

而道尔依旧坚持着他的原则:“MetaCritic的得分是游戏刚发售时,或在发售后的快照。当他们发布评测时,就是‘我已经玩了足够久,我可以公平地评价这款游戏了,我给出的分数是XXX。’”

除去发行商施压和媒体之外,对于开发商还有一个问题:那就是玩家们的评分。当一款游戏深得一批玩家喜爱的同时,却受到另外一些玩家的不屑一顾时会怎样?

Obsidian的厄克特说:“这就是问题所在。对好游戏的预期是80至90分。如果一个好游戏的分数是80至90,那么一款普通的游戏分数就是50左右。如果你想要85分,而有人给了你35分,那么你的90分游戏就被拉低到了85分……很简单的数学计算,但是你要如何应对这种情况呢?你怎么去阻止那些为了自己出名而大喷特喷,并给分数做手脚的人?”

汤姆·奇克常年给游戏打低分,但他表示这不是因为游戏不好,而是为了丰富评测数据采样

这样的评测玩家并不是夸夸其谈,一个名叫汤姆·奇克的玩家,经营着一个名叫Quarter To Thee的博客就是这样的人。奇克在MetaCritic上给出了很多的最低评分,《生化奇兵:无尽》分数是60,而《光环4》只有20分。他使用1-5作为评判标准,自己的评判乘以20就是换算成MetaCritic分值,所以当奇克说“我喜欢这个游戏”并给出3/5时,那么在MetaCritic的评分就是60分。而在MetaCritic上多数玩家看到这个分数之后都会认为是一款烂游戏。

不过奇克认为自己的做法不是在搞乱,他说:“聚众评价只有在作为一个个体组成时才能有好结果,而我认为MetaCritic上很多数据都有问题,他们对数据簇的影响很值得怀疑。不过这并不是MetaCritic的问题,这是IGN、GameInformer和GameSpot的问题。只要识别了有效评价数据就能解决这个问题。这也是为什么我会给出低分,我认为更广的意见范围可以增加其价值。”

无论是处于什么愿意,给出的分数就是泼出去的水,从而影响了开发者的士气和创作力

奇克使用的是自己的评分标准,和MetaCritic上那些大网站评价很不同:举个例子,GameInformer对一款60分游戏的评价是“吸引力有限:虽然很多人喜欢这个游戏,但是游戏可以在体验上做的更好。”奇克的60分则是完全不同的东西:“我认为使用打分系统的所有范围,使得3星意味着我喜欢这个游戏。从字面上来说就是这样。我在自己的博客上也有写为什么3星的意思是‘我喜欢这个游戏’,就这么简单。”

奇克的60分和GameInformer的60分平均下来分值也是一样的。他们都影响着开发者的奖金。他们也都影响到了开发商和发行商之间的合同与商谈。而且他们都改变了游戏的制作方式。奇克说:“众评系统的本质是从多个评分中收集结果,你可以指责说IGN给了一个游戏92分而不是96分。我很同情这些工作室,因为发行商们总是用一个夸张的数字来压制他们。但这不是我的责任,我只对自己的读者负责。”

奇克虽然打分很奇葩,但是他的评论还是值得玩家肯定的,他的评判非常尖锐和直白。然而他的分数也体现出发行商和开发商用MetaCritic时的最大问题:缺乏关联性。当奇克的评分和GameInformer的评分差别巨大时,外界的人怎么知道他们俩的分数意义相差如此之大?

玩家在评测和评分两极分化十分明显,而任何一款游戏都是如此

还有一个值得思考的地方。如果一个游戏被A深深喜爱,却被B深深地憎恨,那么这应该就被认为是一款“中庸”的游戏吗?还是只是一个一半爱一半恨的游戏?如果两个人给游戏打了100分,2个人打了0分,那么这个50分就一点意义都没有,单纯的只是两极分化的观点而已。

这个评分系统很有问题。我相信已经有不少人也这样认为了。

待续未完。下一章节将分享一下业内人士对此事的看法,以及我们对这种制度的看法。本文源自于Kotaku,原作者杰森·史雷尔