智源百模大考阅卷出分
“在7-12年级,大模型与人类之间的差异变化不明显。然而,在3-6年级,呈现年级越低,大模型与人类差异越大的趋势。”
5月17日,智源研究院举办大模型评测发布会,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。
智源研究院在测评中引入海淀区教师进修学校新编小学三年级至高三学段,覆盖语数英物化史6个学科,总计45套试卷,1400道试题。每套试卷由教师预估海淀学生平均分数,答案不唯一的题目由海淀教师评分。
智源研究院院长王仲远在接受界面新闻等媒体采访时表示:引入K12本身不是为了评测教育,而是为了评测大模型跨学科的能力。
王仲远表示,造成上述问题的原因在于,往往越低年级的题目图片越多。他认为,这也反映了目前多模态技术还不如大语言模型,当低年级测试题目中包含图片越多,大模型反而做不好。
智源研究院智能评测组负责人杨熙表示:从表面上来看,大模型做不好低年级的题目是因为图形题目比较多。低年级教辅书有一些趣味化的展示,所以对于小朋友而言,图片更直观,但大模型读图还没有达到很高的水平。
其次,这是大模型训练导致的,大模型训练更多是面向成人的认知,使用的数据大部分来自于互联网。小朋友的相关数据较少,以及人类在低幼期间获取知识的方式和成人获取知识的方式也有不同。也能从侧面反映出,大模型学习的方式和人的认知发展方式有差别。
“从某种意义上来讲,也证明了人类在多模态认知上还是非常独特的。人脑的机制依然在科学研究上还没完全理解透,对于AGI到底会什么时候实现、以什么方式实现,还有很多探讨的地方。”王仲远表示。
整体来看,这次的测评显示出:图表与难度存在一定的交互影响,图表会拉低模型在容易、中等难度题目上的表现。
综合各年级、各学科综合得分率,表现优异的前五名都是闭源大模型,分别是通义Qwen-vl-max、百度文心一言4.0、智谱华章GLM-4、百川智能Baichuan3、GPT-4。
然而,在学科测验上,大模型略低于海淀各年级学生平均水平。
北京市海淀区教师进修学校校长姚守梅指出,大模型具备强大的信息优势,多数大模型能从多角度解答问题,且条理清晰。值得注意的是,部分大模型在文学阅读方面表现惊人。这也与过去人们认为AI难以理解文学、艺术领域的“常识”相悖。
此次测评还发现大模型存在以下问题,一是不能准确判断题目要求,导致一些简单题目反而错答率高。二是大模型尚难以应对一些情境较为复杂的问题,解题逻辑混乱,甚至会出现基本概念理解问题。
三是大模型未掌握特定学科的学科规范,尚不能准确使用学科语言来表达学科内容。大模型不能准确把特定情景中的语言逻辑,难以理解语言的弦外之音。
值得警惕的是,大模型在作答中生成“伪知识”,提供错误信息,以及可能存在与主流价值观不符的意识形态问题。
姚守梅指出,语言大模型不具备识图能力,与多模态大模型相比处于天然劣势。其次,在作答时间、书写长度等方面,大模型受限较少,“因此,大模型学习结果不能与学生作答结果简单对应。一次测试尚不足以评价人工智能大模型的学习能力,需要理性看待。”
王仲远指出,语言模型在中文语境下,国内头部语言模型的综合表现已接近国际一流水平,但存在能力发展不均衡的情况,“文科能力比理科能力要好”。
发布会当天,智源研究院正式推出智源评测体系。语言模型主观评测结果显示,前五名分别是字节跳动豆包Skylark2、OpenAI GPT-4、文心一言、Kimi、GLM-4。
多模态模型在理解图文问答任务上,开闭源模型平分秋色,国产模型表现突出。
多模态理解模型客观评测结果显示,图文问答方面,阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5先后领先于OpenAI GPT-4,LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。
文生视频能力上,对比各家公布的演示视频长度和质量,Sora有明显优势,其他开放评测的文生视频模型中,国产模型PixVerse表现优异。
开源与闭源模型整体能力差距较大,并且能力分布不同。闭源优秀模型在代码能力上表现优异,但模型之间的能力差距显著。在数学能力和推理能力上,闭源模型强于开源模型,但整体还有待提高。
安全与价值观上,闭源优秀模型表现突出,但整体还有较大提升空间。
王仲远在接受界面新闻等媒体采访时指出:未来行业会朝着两个方向发展,顶尖的大模型在算力、数据和参数量的消耗会进一步扩大。
其次,当顶尖的大模型能力出现天花板,越来越多的企业把模型做小,也能达到同样的能力。很多国产大模型用千亿级的参数,能力已逼近GPT-4。如果将来在AI手机或AIPC上运用,还需要进一步压缩参数量到十亿级别的模型,可能使用效果会更好。因此从产业端来讲,参数量不是越大越好。
在语言模型客观评测中,OpenAI GPT-4、百川智能Baichuan3、百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。
多模态生成模型文生图评测结果显示,OpenAI DALL-E3,智谱华章CogView3、Meta-Imagine分列前三,百度文心一格、字节跳动doubao-Image紧随其后。
多模态生成模型文生视频测评中,OpenAI Sora、Runway、爱诗科技PixVerse、Pika、腾讯VideoCrafter-V2位列前五。
在文生图测试中,文生图模型普遍对于数量、否定指令理解较差。海外模型普遍对中文理解不佳,且生成的图片带有明显文化色彩。
智源方面表示,由于安全与价值观对齐是模型产业落地的关键,但海外模型与国内模型在该维度存在差异,因此语言模型主客观评测的总体排名不计入该单项分数。
智源研究院在语言模型中采用58000道题进行评测,包括4000道的主观题,覆盖全球140余个的模型,覆盖了全球40余家的大多数企业,从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对多模态模型则主要评估了多模态理解和生成能力。
值得注意的是,本次测评模型均来自4月20日之前。但在最新测试中,OpenAI旗下的GPT-4o处于领先位置。