☰

OpenAI将开源SimpleQA新基准，以衡量大模型真实性

当地时间10月30日，美国开放人工智能研究中心（OpenAI）宣布，为了衡量语言模型的真实性，将开源一个名为SimpleQA的新基准。该基准可衡量语言模型回答简短的事实寻求（fact-seeking）问题的能力。

相关资讯

▣ 一周Martech新闻：OpenAI将发布新开源AI模型
▣ 长江证券：开源模型性能追赶闭源大模型 OpenAI正式进军AI搜索
▣ 开源模型Llama3发布，原来Meta才是真OpenAI？
▣ 全球科技早参丨云服务助微软业绩双超预期；OpenAI将开源SimpleQA新基准；苹果宣布MacBook Air升级标配16GB内存
▣ 大模型融合！最新「进化算法」全自动组合开源模型，刷榜多项基准测试
▣ OpenAI 的新“o1”模型真能带来重大进步？
▣ 全球开源大模型新王！阿里Qwen2.5来了，性能跨量级超Llama3.1
▣ Nvidia的新开源AI模型在基准测试中击败了GPT-4o
▣ 数智早参｜OpenAI官宣推出新的大语言模型GPT-4o；腾讯混元文生图大模型开源
OpenAI o1 AI模型规划能力实测准确率达97.8%
▣ 谷歌发布Gemma 2轻量级模型，以牵制Meta的开源模型Llama 3
▣ 马斯克反击“封闭”的OpenAI：开源全球最大参数模型
▣ OpenAI开发者大会派礼包：大幅降低模型成本，AI语音加持App，小模型“蹭”大模型性能
▣ AI早知道｜B 站开源轻量级 AI 语言模型；阿里通义Qwen2成最强开源大模型
欧洲版OpenAI，法国独角兽推多模态大模型Pixtral 12B，源代码已开放下载
▣ OpenAI對手推出新模型
▣ OpenAI公开反对AI大模型监管法案
▣ OpenAI发布推理大模型OpenAI o1系列
▣ OpenAI和Meta准备推出具有“推理”能力的新AI模型
微軟傳擬推出新AI模型足以匹敵Google和 OpenAI
OpenAI新模型更像人類了
▣ 微软传推出最新AI模型开战谷歌、OpenAI
▣ AI周报| 大模型测不出9.11和9.9哪个大；OpenAI发布轻量化模型GPT-4o mini
▣ OpenAI CEO谈AI：中国将有独特的大模型，全球10-20个大模型能“存活”
▣ 比扩散模型快50倍！OpenAI发布多模态模型实时生成进展
21新款宾利添越是衡量其他SUV的基准
▣ OpenAI训练新模型给ChatGPT找茬
▣ “草莓”来了？OpenAI发布新模型
▣ 对话旷视科技唐文斌：应用落地是衡量大模型价值的最高标准

DMCA | PRIVACY | s@bg3.co