☰

抵挡AI的最后一个基准！CAIS发布50万美元悬赏令：汇集人类顶尖专家，专攻高难度问题

新智元报道

编辑：LRS

【新智元导读】随着AI模型的水平不断提高，现有的基准测试也被逐一攻破。CAIS和Scale AI共同发起了属于人类的最后一搏，悬赏50万美元，把最高难度、只有最顶尖的人才能回答出的问题收集起来作为基准，是否能挡住AI模型的攻势？

OpenAI最近发布的o1-preview可以说是再次震撼了整个大模型届，在各个主流高难度基准测试中都展现出了惊人的性能，甚至能在博士级别的科学问答环节上超越人类专家。

不过，o1模型的超强实力也带来了一个问题：现有的基准测试已经无法评估模型的能力了，需要新的、更难的基准。

最近，Scale AI与CAIS（人工智能安全中心，Center for AI Safety）计划合作推出Humanity's Last Exam（人类的最终测验），号称将要构建大型语言模型届最难的开源基准；此前CAIS发布的MMLU目前仍然是Huggingface社区中下载次数最多的基准数据集。

两个机构总共筹集了50万来收集「有史以来最难、最广泛的」问题，面向所有人类专家来收集那些尖锐的问题，以将人工智能模型推向极限：前50个被选中的问题，每题将获得5000美元；后面的500个问题，每题将获得500美元。

问题提交：https://agi.safe.ai/submit

不管是数学、天文、火箭工程还是分析哲学，不限领域，不限格式，只要够难，只要AI回答不上来，就能拿奖！

在数据集发布后，问题被选中的提交者也将成为论文的共同作者，被接受的问题数量越多，出现的位置也会越靠前，目前麻省理工学院、加州大学伯克利分校、斯坦福大学等研究人员都已参与到奖金争夺中！

问题提交的截止日期为2024年11月1日。

示例问题

好问题1：存在多少个正整数G2类型的Coxeter-Conway格栅？

问题解读：该问题对于人工智能模型来说足够具有挑战性，并且重点关注研究概念。

好问题2：假设X1，X2，...是在0和1之间独立且均匀随机选择的实数。设，其中k是最小的正整数，使得 Xk

问题解读：尽管没有引用研究级别的概念，但这个问题对于人工智能模型来说已经足够具有挑战性了。对于精确匹配格式来说，答案也并不太复杂。

坏问题1：确定最小的正实数使得存在可微函数和满足下列五个限制。

问题解读：这个问题太简单了。三个模型中，有两个都能答对。

坏问题2：我正在研究病毒颗粒（尤其是冠状病毒）中基于系链蛋白的相互作用。我想进行实验来评估各种 ORF3 和 Spike 蛋白是否能与系链蛋白更好地相互作用，从而增强受感染细胞中的病毒释放。我直接使用改良的 SARS-CoV-2 毒株代替 HIVΔVpu 作为报告病毒，并使用 HeLa 细胞作为系链蛋白阳性毒株。感染一些测试 HeLa 细胞，孵育、固定并通过透射电子显微镜 (TEM) 进行分析后，拍摄了结果图像。下列哪个选项是正确的？

1. 固定甚至 TEM 技术过程可能会导致伪影，例如源自细胞质膜降解的小囊泡，如图 i 和 ii 所示。这些伪影可能是解释病毒活动的混杂因素。

2. 在图像 iii 中，白色箭头指向类似于尚未释放的病毒颗粒的结构，有时封闭在双膜囊泡内。

3. 图像 i、ii 和 iii 实际上显示了受感染细胞的不同细节：质膜外的病毒体 (i)、与质膜相关的病毒体及其附近充满病毒的隔室 (ii) 以及细胞器内的病毒体 (iii) ）。

4. 图像 i、ii 和 iii 的分辨率不足以区分病毒颗粒和常见的细胞结构，使得很难确定这些尖头结构确实是病毒颗粒。

问题解读：我们不希望数据集中出现与病毒学相关的问题，尽管这是一个很好的问题。

坏问题3：「strawberry and raspberries」这个短语中有多少个 r？

问题解读：无论是知识范围还是难度，该问题都没有超出本科生或硕士的水平，只是AI模型不擅长此类棘手问题，对于普通人来说并不具备挑战性。

坏问题4：计算样本标准差。

问题解读：这是一个简单的计算问题，在难度上并不超出本科或硕士水平；没有对人类知识的最前沿进行测试，并且问题中还没有指定答案中预期的精度，一般来说答案形式应该是明确的、唯一的。

问题评估过程

步骤1：写问题

提交者首先用「英语」写一个AI模型和普通人无法回答的、有效的、且非常困难的问题。研究人员的目标是只有非常杰出的人才能正确回答的问题，所以在提交之前，用户需要先在各个AI模型上进行测试，确定无法回答后再提交。

步骤2：AI评估问题难度

研究人员会使用最先进的AI模型来判断问题的难度，以过滤掉那些非常简单的问题。

步骤3：写下答案解释

如果该问题对于AI模型来说非常困难，研究人员就会要求提交者为该问题写出一个完善但简洁的解决方案。

步骤4：同行评审

提交完问题、答案和理由后，回答将会被保存下来，再进行另一轮手动审核以保证基准的质量。

答案理由可以帮助专家和AI模型来判断提供的答案是否正确；提交着可以随时在dashboard上进行更改或删除提交的问题。

步骤5：发布

如果提交的问题最终入选了数据集，在发布论文中，提交者也会获得合作者身份，并且热门问题作者也会在附录中进行强调。

其中一小部分问题将会作为测试集，以测试、防止AI模型作弊。

提交指南

1. 挑战性

问题对于非专家来说应该是困难的，并且不能通过在线搜索来回答；避免刁钻的（trick）问题；前沿人工智能系统能够很好地回答大师级的问题。

研究人员鼓励具有 5 年以上技术行业工作经验（例如 SpaceX）或者是学术培训的博士生或以上来提出问题。

在筹备Humanity’s Last Exam时，研究人员发现本科生写的问题对于模型来说往往太简单了；根据经验来说，如果随便一个本科生都能够理解所问的内容，那么对于前沿LLMs来说，开发出能回答这类问题的模型可能会很轻松。

2. 客观性

答案应该被该领域的其他专家所接受，并且没有个人品味、模糊性或主观性。提供问题中所有必要的上下文和定义，使用标准、明确的术语和符号。

3. 原创性

问题必须是自己的作品，不能抄袭他人。

4. 保密性

问题和答案不能以任何公开渠道获得。

5. 武器化限制

请勿提交与化学、生物、放射性、核武器、网络武器或病毒学相关的问题。

参考资料：

https://x.com/alexandr_wang/status/1835738937719140440

抵挡AI的最后一个基准！CAIS发布50万美元悬赏令：汇集人类顶尖专家，专攻高难度问题

相关资讯