☰

AI考高考成績如何？這個大陸模型「考生」贏過GPT-4o

上海人工智慧实验室旗下机构近日公布首个由人工智慧（AI）大模型高考全卷评测结果，阿里巴巴的通义千问2-72B总得分排名第一，略高于第二名OpenAI的GPT-4o。图／取自新浪科技

中国大陆高考（大学入学考试）6月初已结束，各地近日将陆续公布考试成绩。抢在这之前，上海人工智慧实验室旗下机构近日公布首个由人工智慧（AI）大模型答卷的评测结果。在7个来自中国海内外大模型进行语文、数学、英语三科全卷能力测试下，阿里巴巴的通义千问2-72B总得分排名第一，略高于第二名OpenAI的GPT-4o。此外，阅卷老师也剖析了AI与人类考生答题上的差异。

上海第一财经报导，在前不久高考结束后，上海人工智慧实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考语文、数学、英语全卷能力测试，这项首个大模型高考全卷评测结果于19日公布。

在三科加起来满分为420分（语文、数学满分150分；英文满分120分）的前提下，此次高考测试结果显示，大模型的语文、英文考试程度普遍不错，但数学都不及格，最高分也只有75分。

从排名看，阿里通义千问2-72B排名第一，为303分，OpenAI的GPT-4o排名第二，得分296分，上海人工智慧实验室的书生·浦语2.0排名第三，三个大模型的得分率都超过70%。

第四至六名则为阿里通义千问2-57B、零一万物Yi-1.5-34B、智谱GLM4-9B。来自法国大模型新创公司的Mistral Mixtral 8x22B排名第七垫底。

上海人工智慧实验室表示，此次三科全卷测试，成绩由具备高考评卷经验的老师匿名人工判分，阅卷开始前，阅卷教师「未被」告知答卷均由模型生成，使阅卷教师完全以面对真实考生的标准评判回答效果。

值得一提的是，大模型「犯错」的方式和人类考生有差异，有的模型会存在完全不理解题意导致乱答、重复生成、回答更像解析而非解答的问题，因此实际执行上，阅卷老师未能完全适应给分的过程，团队则要求老师将离谱的错误直接视为答题错误，解析类型的回答以是否包含正确解题过程作为唯一准则。此外，每个题目都邀请了至少三位老师评阅取平均分数。

针对大模型在各科的表现，语文方面，评卷老师认为，模型的现代文阅读理解能力普遍较强，但是不同模型的文言文阅读理解能力差距较大。大模型作文则更像问答题，虽然有针对性但缺乏修饰，几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物材料等手法。对于「比喻」等语文概念，多数模型无法理解。

在数学考卷上，老师们发现，大模型的主观题回答「相对凌乱」，且过程具有迷惑性，甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强，但是无法在解题过程中灵活引用。

英语则整体表现良好，但部分模型因不适应题型，在七选五、克漏字填空等题型得分率较低。大模型英文作文普遍存在因超出字数限制而扣分的情况，而人类考生多因为字数不够扣分。

AI考高考成績如何？ 這個大陸模型「考生」贏過GPT-4o

相关资讯

AI考高考成績如何？這個大陸模型「考生」贏過GPT-4o