AI考高考成績如何? 這個大陸模型「考生」贏過GPT-4o

上海人工智慧实验室旗下机构近日公布首个由人工智慧(AI)大模型高考全卷评测结果,阿里巴巴的通义千问2-72B总得分排名第一,略高于第二名OpenAI的GPT-4o。图/取自新浪科技

中国大陆高考(大学入学考试)6月初已结束,各地近日将陆续公布考试成绩。抢在这之前,上海人工智慧实验室旗下机构近日公布首个由人工智慧(AI)大模型答卷的评测结果。在7个来自中国海内外大模型进行语文、数学、英语三科全卷能力测试下,阿里巴巴的通义千问2-72B总得分排名第一,略高于第二名OpenAI的GPT-4o。此外,阅卷老师也剖析了AI与人类考生答题上的差异。

上海第一财经报导,在前不久高考结束后,上海人工智慧实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考语文、数学、英语全卷能力测试,这项首个大模型高考全卷评测结果于19日公布。

在三科加起来满分为420分(语文、数学满分150分;英文满分120分)的前提下,此次高考测试结果显示,大模型的语文、英文考试程度普遍不错,但数学都不及格,最高分也只有75分。

从排名看,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智慧实验室的书生·浦语2.0排名第三,三个大模型的得分率都超过70%。

第四至六名则为阿里通义千问2-57B、零一万物Yi-1.5-34B、智谱GLM4-9B。来自法国大模型新创公司的Mistral Mixtral 8x22B排名第七垫底。

上海人工智慧实验室表示,此次三科全卷测试,成绩由具备高考评卷经验的老师匿名人工判分,阅卷开始前,阅卷教师「未被」告知答卷均由模型生成,使阅卷教师完全以面对真实考生的标准评判回答效果。

值得一提的是,大模型「犯错」的方式和人类考生有差异,有的模型会存在完全不理解题意导致乱答、重复生成、回答更像解析而非解答的问题,因此实际执行上,阅卷老师未能完全适应给分的过程,团队则要求老师将离谱的错误直接视为答题错误,解析类型的回答以是否包含正确解题过程作为唯一准则。此外,每个题目都邀请了至少三位老师评阅取平均分数。

针对大模型在各科的表现,语文方面,评卷老师认为,模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。大模型作文则更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物材料等手法。对于「比喻」等语文概念,多数模型无法理解。

在数学考卷上,老师们发现,大模型的主观题回答「相对凌乱」,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。

英语则整体表现良好,但部分模型因不适应题型,在七选五、克漏字填空等题型得分率较低。大模型英文作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。