MIT科技评出中国“最聪明”的大模型

中国青年报客户端合肥8月17日电(中青报·中青网记者 王海涵)国内“千模大战”下,谁是“最聪明”的大模型?《麻省理工科技评论》发布中国最新发布的大模型评测报告显示,在8个一级大类的600道题目的测试和盲评中,讯飞星火认知大模型V2.0在6个大类中得分率排名第一,在此次评测中表现突出,以 81.5 分(百分制计)的成绩在本次评测中登顶,荣获“最聪明”的国产大模型称号。

大模型评测综合得分率。受访单位供图

《麻省理工科技评论》中国从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力,力图评出“最聪明”的国产大模型。选取了国内四个大模型作为中文大模型平台的代表,展开系统科学评测。

本次评测使用的测试集包含600道题目,覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共 8 个一级大类,126 个二级分类,290 个三级标签,并针对问题的丰富性和多样性做了优化。

作为比较难的评测维度,综合知识对大模型的“聪明”程度要求也很高,包含百科问答、常识、科学知识、事实问答、工作技巧、谜语等 13 个二级分类,题型以多选为主。最终,讯飞星火 80.61% 的得分率排名第一,初步显示出在百科问答和历史人文上的“过人之处”。

8月12日,新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》中,讯飞星火V1.5以总分1013分位列本次国产主流大模型测评榜首位。

来源:中国青年报客户端