☰

o1推理将用于图像理解，OpenAI在伦敦捅了开发者窝

OpenAI在Cursor里用o1-mini现场捏应用，两分钟，直接控制无人机飞行。

引得台下观众传来阵阵惊呼：

如此操作，刚刚发生在OpenAI伦敦开发者日活动上。作为OpenAI的“科技春晚”，真是好不热闹，现场挤满了人从众。

OpenAI产品部负责人Olivier Godement还剧透了一波o1新功能——

包含功能调用、开发者消息、流媒体、结构化输出、图像理解5个方面。

奥特曼在之后的问答环节表示不想剧透，但透露“图像模型将很快迎来显著提升”。他提到，复制现有模型并不难，而让他为OpenAI感到自豪的是，他们始终在创造新的突破。

网友们听到这里更兴奋了：

OpenAI要在图像方面发力其实也早有迹可循。

不久前，两位清华校友路橙、宋飏就在OpenAI发布最新图像生成研究。

他们简化了一致性模型，仅用两步采样，就能使生成质量与扩散模型相媲美，速度是扩散模型的50倍。

此外，对于OpenAI所说的图像模型，还有人猜测不会是前几天登顶文生图竞技场的爆火神秘小熊猫（red_panda）吧？

但这种说法很快就被否定了。

小熊猫背后团队Recraft AI已发推文认领，这是他们的新模型recraft-v3。

总之，o1这次算是吊足了大伙儿的胃口，网友喊话赶紧发4.5o和5-preview：

在现场，奥特曼还被问到OpenAI的发展方向是更像o1这样的模型，还是会有更大规模的模型？

他表示想在各方面都变得更好，但推理模型的发展对OpenAI尤其重要。

在谈论到“什么是Agent”、“它们可以做什么”，奥特曼表示Agent是一个可以接受长期执行任务，并在执行过程中只需很少监督的东西。

奥特曼认为大家最常举的一个例子是可以让Agent帮忙预订餐厅，它可以用在线餐厅预订平台OpenTable或者是直接打电话到餐厅。

这确实能为人们减少一些工作，但更有趣的事是能创造一个世界，在那里可以做一些人类无法或不愿做的事。

比如与其让Agent打电话给餐厅预订座位，不如让Agent打给300家，找到最好吃或是最有特色的那一家，它可以并行处理大量任务。

接下来，奥特曼还被问到最敬重的竞争对手是哪个，他提到的第一个就是Cursor AI，但随后又补充道：

文章转载:[tobp.carsandvansrus.com）

要知道，昨天微软刚刚宣布了GitHub Copilot接入Claude和Gemini。

文章转载:[px.arpansahdev.com）

奥特曼转头给了微软竞争对手Cursor AI一个点赞……

文章转载:[lh.anewlife8.com）

此外，奥特曼还被问到最令人兴奋的AI应用场景是什么，他再次Q到Agent：

文章转载:[hrow.anamobe.com）

奥特曼还认为大模型的大多数缺点将在未来几代中逐步消失。

文章转载:[dbg.airinajar.com）

除了预告，OpenAI还有最新动作——

文章转载:[zly.admfasteners.com）

开源了一个评估语言模型回答简短、事实性问题能力的新基准，名为SimpleQA。

文章转载:[vvid.yishangshi.com）

论文共同一作是去年在X上约战提示词决斗引得大伙儿纷纷围观的Jason Wei（思维链开山论文一作）和Karina Nguyen（提示词决斗那会儿还在Anthropic，现已是OpenAI工程师）。

文章转载:[rf.wow-wash.com）

有意思的是，o1-mini和o1-preview在此基准上都不及格，而且两者相差还很大：

文章转载:[np.wawaxx.com）

参考链接：[1]https://twitter.com/idonotwritecode/status/1851565982889713962[2]https://twitter.com/stevenheidel/status/1851574257819562195[3]https://x.com/kimmonismus/status/1851708364503552312[4]https://twitter.com/OpenAI/status/1851680760539025639[5]https://twitter.com/AymericRoucher/status/1851657127410151461[6]https://www.youtube.com/watch?v=VTeRZqUHi4E[7]https://x.com/caromcc_/status/1851570587287601237

文章转载:[jz.viaepiacenter.com）

o1推理将用于图像理解，OpenAI在伦敦捅了开发者窝

相关资讯