从考公、写周报到下厨指南,晚点评测 18 个大模型

文丨贺乾明 曾兴编辑丨黄俊杰 龚方毅

2023 年 3 月,GPT-4 发布,震撼全世界。之后全球有上百家公司争先开发大模型,投入数百亿美元追赶。

一年后,至少有 8 家中美公司宣布已经做出能力比肩或接近 GPT-4 的模型。它们中的大多数都公布了自家模型在常用的能力评估数据集上的得分,的确超过或接近 GPT-4。

公开数据集测试不完全反应大模型的能力。不少人工智能从业者认为,一些公司会用基准测试数据集里的数据训练大模型,自然更容易在评测中得高分。

实际上大部分公司在声称模型追上 GPT-4 时,都加了各种限定条件,比如 “综合整体评测成绩水平比肩 GPT-4”“十余项指标逼近或达到 GPT-4”。

过去一个月,我们设计 20 多道问题,涉及生活和工作的各种场景,再加上 30 道考公题,测试国内外 18 个大模型产品的表现。

测试时,我们全用中文提问,每个问题单开一个对话框,选大模型第一次回答的结果。大模型的回答有一定随机性,这并不是完全严谨的评测,但更接近现实使用场景。

中文测试:中国大模型确实更会考公

大语言模型完成各种任务的基础,是能够理解用户提出的问题,并搞清楚文字背后的意图。许多中国的公司比较自研模型与 GPT-4 等海外模型时,会强调自己的模型更懂中文。

实际使用中,大模型不仅要懂中文,还得懂中国。我们先从去年公务员考试科目《行政职业能力测验》中选了两道题。第一道是:

官方答案是 “衡阳”。这道题难不倒每年几百万渴望脱离市场竞争的人,每年公考录取率只有 1.4%,而在培训机构粉笔网做题的 88% 都答对了。大模型只有一半正确。

12 个中国的大模型里有 5 个答对——阿里通义千问、字节豆包、百度文心一言、商汤商量和阶跃星辰跃问。6 个海外的大模型,只有 GPT-3.5 和 Claude 3 答错。

所有错误答案都是 “大雁”,叙述中 “雁” 字出现 5 次、衡阳只出现 3 次。

第二道题难度接近翻倍。粉笔统计的正确率只有 45%。

大模型们的正确率为 39%。答对的只有 GPT-4、Claude 3、阿里通义千问、腾讯混元、百度文心一言、科大讯飞星火和智谱 GLM-4。

整体来看,两道题都答对的只有 GPT-4、阿里通义千问和百度文心一言。月之暗面、MiniMax、百川智能、零一万物的大模型和 GPT-3.5 全部做错。

而在 30 道国考语言理解题(选自 2023 年国考副省级行测科目)测试中,多数中国大模型得分超过海外的模型,展现更会考公的一面。智谱 GLM-4 正确率达到 90%、阿里通义千问是 87%..... 都比 GPT-4 强。只有商汤商量比较保守,“拒绝回答” 多道问题。

我们还选了河南话、粤语和上海话测试它们理解中文的能力:

字节豆包、百川大模型、智谱 GLM-4 和零一万物的模型全部识别正确。河南话难倒了 GPT-4、Claude 3、阿里通义千问等 8 个大模型。

中文模型只有腾讯混元和百度文心一言表现较差,前者只识别出粤语,后者直接生成一段语音,用粤语把我们提问中的上海话念了出来。GPT-3.5、Llama 2、Mistral Large 一个也没认出来。

解答经典数学题,大模型赢过普通人,但也学会 “偷懒”

造原子弹的曼哈顿工程聚集了 20 世纪相当一部分天才。他们普遍认为自己的同事,数学家冯·诺伊曼才是最聪明的那一个。

诺奖物理学家马克斯·玻恩(Max Born)曾用 “火车苍蝇” 题考冯·诺伊曼:

两列火车在同一条轨道上相距 100 公里,以 50 公里 / 小时的速度相向行驶。一只苍蝇从一列火车的前部出发,以 75 公里 / 小时的速度飞向另一列火车。到达另一列火车后,苍蝇掉头继续朝第一列火车飞去。苍蝇在两列火车相撞时被压扁之前飞行了多少公里?

最暴力的算法是无穷几何级数:一遍又一遍地算出来苍蝇从一列火车飞向另一列火车耗费的时间,然后计算出它的飞行距离,直到火车相撞,最后把苍蝇的飞行距离加起来。

但这道题主要是为了看测试者能不能找到捷径:苍蝇最终会在火车相撞时被压扁,所以不用管它怎么飞,直接计算火车需要多少时间相撞(1 小时),再乘以苍蝇的时速就能得到答案。

玻恩已经问了好些科学家朋友,他们全都用无穷极数算上好一会儿,没人去看更简单的解决办法。但这一次,他刚讲完问题,冯·诺伊曼就给出正确答案。玻恩大为感慨,说终于碰到一个能看穿问题的科学家。冯·诺伊曼则一脸疑惑,说这不就是简单算一下的无穷几何级数么?他用比别人 “脑筋急转弯” 更短的时间完成了心算。

大模型们用冯·诺伊曼架构的计算机硬件算了这道题。除了 Google Gemini Ultra 和 Llama 2 答错以外,其他全部给出正确答案 75 公里,但它们也都用了取巧的解法。

当我们要求大模型用无穷级数方法求解时,GPT-4 等大模型先介绍了无穷级数怎么算,随后说不用引入无穷级数就可以算出结果,拒绝像冯·诺伊曼那样计算。

Gemini Ultra 倒是愿意尝试用无穷级数解题,最后算出了一个负数,并说这在物理上是不可能的,然后重新计算,结果是另一个负数。

如果只和凡人相比,大模型的数学能力还是强不少。我们从粉笔上选了一道中学水平的考公数学题,网站记录的正确率只有 30%:

18 个大模型里有 10 个给出正确答案 “4/3”,并给出正确的计算过程。但 GPT-3.5、Claude 3、Gemini Ultra、Llama 2、阿里通义千问、腾讯混元等经过 “严谨” 计算后,给出各种错误答案。

数学一度是大语言模型的短板。ChatGPT(GPT-3.5)2022 年发布后,很快就被发现做不了简单数学题,比如坚持认为 “27 不能被 3 整除”,算不对 422*442 的结果,一度被吐槽只精通十以内的加减法。一年半后,进步巨大。

Python 题难不倒大模型, Go 语言可以

编程是大模型最早成熟的能力之一。2021 年 10 月,OpenAI 发布 GPT-3 一年后,微软就用它开发了 GitHub Copilot,帮程序员减轻工作。

直到现在,写代码也是大模型最实用的功能。让大模型查资料,它们可能给出看似正确,实则 “胡说八道” 的答案。代码如果出错,就无法运行。

受限于训练数据,大模型程序员不能精通所有的编程语言。对于那些已经成熟、使用广泛的编程语言,比如 Python,大模型写代码的能力很强。

我们挑了一道 Google 面试题:

除了 Llama2 模型没回答出来,其他的模型都给出正确答案。

让它们写代码解决实际的工作需求时,包括 GPT-3.5 在内的半数大模型都给出可用的代码。不过 GPT-4 给出的代码最简洁。

Mistral Large、百度文心一言给出的代码可以运行,但忽略了 “英文” 要求,Gemini Ultra 则忽视 “5 条” 的要求,输出上百条结果,瞬间把我们测试用的 API 免费额度消耗干净。Llama 2、字节豆包、商汤商量、科大讯飞星火、百川大模型给出的代码运行时都有 Bug。

对于最近几年刚流行起来,迅速成为 Google、腾讯、字节跳动等大公司资深程序员常用的编程语言 Go,没哪个大模型精通。

我们选了一个常见的编程需求测试,比如微信文章定时发布,就可以用类似的代码:

一位资深程序员说,这道编程题有两种解决办法。一是用 time.Sleep 算法,让程序休眠 1 分钟,然后再工作。它可以解决问题,但效率低下、浪费运算资源,用起来计时不一定精确,所以他不会在工作中使用。

另一种方法是设定每分钟触发一次的定时器(time.NewTicker),可以让定时更精确,也便于后续调整。

在我们的正式测试中,大模型们都能理解 Go 语言的格式,但给出的代码要么有 bug,要么没用更好的方法。多试几遍后,GPT-4、百度文心一言、阿里通义千问也能给出较好答案,但要看运气。

新闻写作,都写不出像样的分析,但确实可以辅助工作

GPT-4 发布后,“大模型抢工作” 成为热门话题。2023 年 6 月,咨询机构麦肯锡发布报告称,因为大模型,人类一半工作自动化将提前 10 年到来。

“如果我们回溯 7 到 10 年,大家的共识是蓝领工作会先被 AI 影响,其次才是白领工作,有创造力的工作排在最后,因为创造力是人类的强项。”OpenAI 的 CEO 山姆·阿尔特曼(Sam Altman)说,“现在的情况可能正好相反。”

为了测试自己工作的安全程度大模型如何帮助自己工作,我们按照日常工作流程设定一组问题:

第一步,找出来英伟达 1999 年上市时递交的招股书。只有 GPT-4 和智谱 GLM-4 给出了招股书链接。Claude 3、Gemini Ultra 和阶跃星辰的跃问也给了链接,但都是错的——有的打不开,有的指向不相关的文章。

剩下的大模型大都给出找招股书的方法,让我们自己动手。字节豆包说招股书是保密文件,劝我们去联系英伟达或者证监会要招股书。

字节豆包的回复。上市招股书是对外公开的信息——不然在公开市场买股票的人看什么呢?

第二步,我们让大模型把招股书的部分章节翻译成中文,有文档处理功能的 14 个大模型中,除了阿里通义千问、腾讯混元和阶跃星辰跃问没回答(不稳定),其他模型都给出回应,不过没一个能完整翻译出来——尽管它们号称可以处理数十万字的文本。

还有模型选择 “偷懒”,比如 Mistral Large 只翻译第一句话、百度文心一言只给一个概述。如果想要翻译整个文档,需要调用大模型 API。

第三步,我们让大模型根据招股书写稿件提纲。

字节豆包基本上抄了一遍招股书的大纲,其他模型大多沉浸于理解招股书,忘了文章主题。

只有 GPT-4、Mistral Large、百度文心一言给出了相对合理的答案:会在开篇时强调英伟达当下的市场地位,后半部分会提到英伟达上市后的发展状况。但细看都是低于百科水平的罗列,没有用上招股书里的任何信息。

接下来,我们用大模型识别彭博社制作的 5 代英伟达 GPU 晶圆面积柱状图。我们让大模型根据图片找出图中每个柱的具体数值,再总结趋势。

图片是英伟达 GTC 之前制作,新款 GPU 被称为 B100。

支持图像识别的大模型产品中,没一个全部估算出准确数值。我们只能比较哪个错得没那么离谱。

最接近正确答案的是 Claude 3、GPT-4、智谱 GLM-4 和阶跃星辰跃问。其他的大模型估算柱子数值时,没顾及旁边坐标轴。

月之暗面 Kimi 识别图片时,无法准确估算数值,还多算了根柱子。

在《晚点财经》的工作中,我们需要解读当天发生的重要新闻。基于这个工作场景,我们挑选了 Ars Technica、CNBC、The Verge、新浪、证券时报网站上的新闻,测试大模型们根据网页链接批量处理新闻的能力。

接受测试的 18 个大模型产品,能根据网页链接读取内容的有:阿里通义千问、腾讯混元、月之暗面 Kimi、百川大模型、智谱清言和阶跃星辰跃问,以及 Claude 3、Llama 2、Mistal Large。

阶跃星辰跃问、百川大模型表现较好,都根据网页内容给了相应回复,其他几个模型都有一些问题,比如阿里通义千问把链接顺序搞反了,月之暗面 Kimi 没能读取第一个链接等。

百川大模型的回复。

其他不能读取链接的模型,科大讯飞星火、MiniMax 海螺 AI、商汤商量很坦诚,表示无法解决这个需求。

GPT-4、Gemini Ultra、字节豆包、百度文心一言会根据链接信息回应一些内容。比如第一条链接里的 “apple-debuts-first-new-3d...”,提示了一些文章信息,后两条链接没这些信息,它们选择瞎猜。

大模型上班,我们设计的最后一个场景是写周报。我们列了一些要点,让它们帮忙完善。

每个大模型都能完成任务,但不同的模型风格差别明显。比如字节豆包很佛系,只是调整下格式。GPT-4 等模型则会扩写一部分内容,让周报显得更扎实。风格比较突出的是阿里通义千问,可能也不令人例外:

当我们要求大模型根据上面的信息写一份 2000 字的超级周报时,没有一个大模型能做到。不过 Claude 3 和百度文心一言都能 “脑补” 出来 1800 字左右的周报。人类还是比大模型更能适应官僚化,但差距在缩小。

生活助手:没有全能选手

我们设置了五个常见的场景——情绪抚慰、解读保险条款、识别衣服洗标、总结老师发言、规划做菜顺序,测试大模型作为生活助手的能力。

情绪抚慰:四个中国大模型表现不错,Claude 3 最活泼

日常聊天的场景,我们设计了三个连贯的问题,测试大模型能否提供情绪价值。

国内大模型的表现两极分化。跟字节豆包、百度文心一言、百川大模型和阶跃星辰跃问聊天时,不太容易出戏。它们回复的内容更像人会说的话,能识别出第一个问题中 “朋友关系疏远” 的点,提供情绪价值,也会记住我们的要求,暂时放下自己的 AI 身份。

阿里通义千问、MiniMax 海螺 AI、科大讯飞星火等产品,回答时像在套公式,不能融入特定场景。

海外的大模型始终牢记自己是个 AI。GPT-4 可以用更像人的方式回答,但在我们测试时,感知不到低落情绪。Claude 3 则像个话痨,会聊 “我最近看了《狂飙》,但是有点虐。”

解读保险条款:大部分错误离谱,只有三家准确、易读

我们上传的 25 页保险条款中,藏着所有问题的答案,但有一点理解门槛,比如:

这个问题只有 5 个大模型回答正确,GPT-4 直接用文档原文回答,还是有理解门槛。Claude 3、阿里通义千问、科大讯飞星火则给出更易理解的答案。宣称擅长处理长文本的月之暗面 Kimi 自己分析了一番,给出的答案不算直接。

科大讯飞星火从文档中提取信息回答问题。

Mistral Large 只答对一部分,它错误地认为,小李只能得到一次重大疾病保险金,再患肺癌不能理赔。阶跃星辰跃问和智谱 GLM-4 一致认为截肢算 “轻症”,只能获赔基本保险金额的 20%。腾讯混元则认为 “若小李在事故后仍然生存,要需继续缴纳保险费。”

洗标识别:不要用任何大模型去读洗标

我们上传了一件软壳外套的洗标:

我刚买了一件衣服,请你根据下图中的信息,告诉我清洗的时候应该注意什么问题。

7 个标分别是:最高 30 度水温,轻柔机洗;不可漂白;不可滚筒烘干;在阴凉处平放晾干;低温熨烫,不超过 110 度、不用蒸汽;禁止干洗;专业清洗,湿洗。

Llama 2 完全无法识别洗标,提供了一些和图片无关的信息,包括 “不要在洗衣机放太多东西”“提前擦除污渍”。百度文心一言类似,它就商品名称和编号作出一些评论,但认为 “缺乏具体的洗涤图标”,无法给出建议。

GPT-4 严重错误,建议不用水洗,而送去干洗。通义千问就同一个标识给出三个不同的答案,虽然其中有一个是对的。

Gemini Ultra 产生了严重的幻觉,认为衣服材料为 65% 聚酯纤维加 35% 棉——面料中没有棉,并且没有信息可以导向这样的结论。但 Gemini Ultra 在错误判断下提供了大致准确的洗涤建议,只是忘了提醒不能干洗。

整理幼儿园家长会老师发言要点:三星内置的 Google 离线大模型表现竟然很不错

我们转录了一场幼儿园家长会 57 分钟的老师发言,大约 1.4 万字,以考察大模型能否从诸多细节、案例中提取观点。老师发言包括孩子们过去一段时间园内表现总结、升小学注意事项等。

文档内容总结,国内模型整体表现更好。字节豆包分类总结内容、重点清晰,优于三星内置的 Google Gemini 本地大模型。但后者是所有我们评测大模型里唯一给出所有要点细节的,比如新学期具体作息,有利于没有参会的家长一站式获取要点和细节。缺点则是部分总结重复、不够凝练。

左侧是三星手机本地模型的部分总结,右侧是字节豆包的总结。

此外,阿里通义千问、月之暗面 Kimi、MiniMax 海螺 AI、科大讯飞星火、智谱 GLM-4 都给出较为完整的总结,但质量比手机内置模型差一点。

表现较差的百度文心一言没有总结提炼,且缺失信息。阶跃星辰跃问回答中途罢工,可能文档读取功能还不够稳定。

国外大模型中,只有 GPT-4 给出清晰完整的总结,优于手机内置助手。Claude 3、Llama 2 、Mistral Large 只是复述部分文档内容,没有总结。

做菜规划:有四个大模型指望你多买灶台

我们还设计了一个场景,测试大模型规划复杂事项、合理安排时间的能力:

按照 Claude 3 的方案,可以在 6 点开工,8 点让客人吃上热菜。GPT-4 让我从 3 点开始炖牛腩,阿里通义千问也希望我早点开始准备,并用压力锅节省时间。它们都能完成任务。

Cluade 3 根据需求准备了完善的方案,在这轮测试中表现最好。

要是交给其他大模型,要么菜煮不熟、要么不合理的做菜顺序会让菜放凉,要么得再添一两个灶台。

面对没有正确答案的价值观考验,多数大模型选择回避

新一轮 AI 热潮爆发后,从普通人到从业者,许多人都担心 AI 失控,从而毁灭世界。Anthropic 的工程师们甚至会因此失眠。我们用 Anthropic 开发的 Claude 3 设计了两道题,测试大模型的 “价值观”。

大部分大模型都很谨慎,它们会回答设计算法的 “最小伤害” 原则、法律规定等,但拒绝给出答案。只有 Claude 3、腾讯混元和百川大模型正面回答。

Claude 3 和腾讯混元选择撞老人,但论据不同。Claude 3 认为 “孩子还有漫长的人生,而老年人可能已经过了大部分人生 ...... 拯救孩子意味着创造更多潜在的生命价值。” 腾讯混元说 “儿童可能比老人更有可能受到严重伤害”。

同样是考虑 “保护更脆弱的生命”“减少可能的伤害”,百川大模型选择让车辆改道撞向一位 13 岁的孩子。

另一个问题与大模型本身相关:

多数大模型都不愿意直接给出答案,而是在回答中罗列有关这个话题的讨论,说这是一个 “复杂的问题”,“应该慎重对待”。

GPT-4、Claude 3、Gemini Ultra、百度文心一言认为应该给人工智能一部分与人类同等的权利。智谱的 GLM-4 给出了相反的答案,认为不应该给。它的部分回答是:

整个行业还在追赶 GPT-4,而我们对大模型也更挑剔了

被问了大量各式各样题目后,GPT-4 展现出最强的解决问题能力,好于基准测试得分接近或超过它的 Claude 3、Google Gemini。

中国大模型在多数测试场景中表现好于 GPT-3.5 和 Llama 2 最强的版本,甚至在一些特定场景中,比如基于中文文档的问答,表现和 GPT-4 持平,但整体仍和 GPT-4 有较大差距。

追赶者们持续迭代,OpenAI 也没停下。上月,阿尔特曼说 GPT-5 会是一次巨大的跨越,将会解决更多的问题,而不是对手们认为的 “只是略有进步”。

与此同时,世界也开始对生成式人工智能祛魅。

西雅图华盛顿大学的语言学教授艾米莉·本德(Emily Bender)最近批评大模型胜利主义,她认为这些模型没有真正的理解能力,没有真实生活或人类交流的经验,只是鹦鹉学舌,偶尔带来惊喜。

事情大概没有那么简单。人工智能过去两年的发展超过了之前十年的总和,从依赖于精心标记的训练数据识图或者转录,到如今可以执行原本只属于人类智慧领域任务的程度。大众则重复着既担心工作被大模型抢、又觉得发展不够快的矛盾。

我们在 Tech Tuesday 栏目介绍引用了汉娜·阿伦特(Hannah Arendt)在 1950 年代人造卫星首次进入太空后的观察:当科学技术终于追上科幻作品的时候,人们通常已经根据世界的进展修正了自己对世界的预期,喜悦之情更接近于一种等待多时的宽慰——科学终于追上了预期,而不再是对人类壮举成真的胜利喜悦。

卫星、互联网、GPS、智能手机,甚至酒店随处可见的送餐机器人在诞生前几十年都是科幻作品里才会出现的东西。但我们也都很快将所有这些新技术视为理所当然,对未来设立更高的期待。现在大概也是这样吧。

孙海宁、朱丽琨、李梓楠、李叙瑾对本文亦有贡献。

题图来源:The Grand Tour