☰

检验大模型数学推理能力，司南发布全新评测指标与评测集

近日，大模型开放评测体系司南（OpenCompass）推出评测指标G-Pass@k及数学评测集LiveMathBench，旨在检验大模型的数学推理能力，加速大模型在高难度推理场景中的落地应用。基于最新提出的评测集及指标，OpenCompass团队对主流通用大模型、数学大模型及强推理模型进行了多轮评测并观察到：闭源、开源模型均无法进行稳定的复杂推理；增大参数规模对推理能力提升有限；强推理模型的性能潜力和实际表现之间存在显著的差距，‍亟待解决在实现最佳性能的同时保持稳定性。

相关资讯

▣ 《通用大模型评测标准》发布
▣ 全球140+大模型全方位评测结果出炉，智源评测体系发布
▣ Kimi发布新一代推理模型，数学能力对标OpenAI o1系列
▣ 首个AI大模型高考全卷评测结果发布
▣ 全国首个！上海发布《金融大模型应用评测指南》，深化金融垂类应用
中国保险汽车安全指数发布五款车型测评结果
中国保险汽车安全指数五款车型测评结果发布
▣ “国家队”评测30个大模型数学能力，九章、文心、星火位列前三
▣ K5车型评测：性能、配置与驾驶体验全面解析
短评／全民智力测验
快评》全民智力测验
▣ 月活超3600万人 Kimi发布数学推理模型，能力可对标OpenAI o1系列
▣ 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测
▣ 百川智能发布超千亿大模型Baichuan 3，中文评测超越GPT-4
▣ 券商压力测试纳评鉴指标
▣ 永信至诚：公司AI大模型安全测评“数字风洞”平台已接入抖音豆包大模型
▣ i5-6200U处理器性能评测与使用体验分析
▣ 从考公、写周报到下厨指南，晚点评测 18 个大模型
▣ 苹果7的性能与使用体验全面评测
▣ A手机的性能与用户体验全面评测
▣ 苹果4的性能与使用体验全面评测
▣ 苹果6S的性能与使用体验全面评测
▣ 苹果8的性能与使用体验全面评测
▣ LG冰箱的性能与用户体验全面评测
▣ 奇瑞新能源车型评测：性能与性价比全面解析
▣ Anthropic大模型测评首超GPT-4
▣ TikTok 热门冷却毯：亲测体验与全面评测
▣ 中国保险汽车安全指数（C-IASI）2022年测评车型第一次结果发布
▣ 新型人工智能学习模型让立场检测大升级

DMCA | PRIVACY | s@bg3.co