本周 AI 领域:科技巨头为何青睐合成数据?

本周在 AI 方面,合成数据崭露头角。

OpenAI 上周四推出了 Canvas,这是与ChatGPT(其由人工智能驱动的聊天机器人平台)进行交互的新方式。Canvas打开了一个带有工作区的窗口,用于写作和编码项目。用户可以在 Canvas 中生成文本或代码,然后在必要时突出显示部分以使用 ChatGPT 进行编辑。

从用户的角度来看,Canvas 极大地提升了生活质量。但对我们来说,该功能最有趣的是为其提供支持的微调模型。OpenAI 表示,它使用合成数据对GPT-4o模型进行了定制,以在 Canvas 中“实现新的用户交互”。

“我们使用了新颖的合成数据生成技术,比如从 OpenAI 的o1-preview中提取输出,对 GPT-4o 进行微调,以实现打开画布、进行有针对性的编辑以及在线留下高质量评论等操作,”ChatGPT 产品负责人尼克·特利在X 上的一篇帖子中写道。“这种方法使我们能够迅速改进模型并实现新的用户交互,所有这些都无需依赖人工生成的数据。”

OpenAI 并不是唯一一家越来越依赖合成数据来训练其模型的大型科技公司。

在开发Movie Gen(一套用于创建和编辑视频片段的由人工智能驱动的工具)时

该公司招募了一组人工注释员来修正这些字幕中的错误并增添更多细节,不过大部分基础工作在很大程度上是自动化完成的。

OpenAI 首席执行官 Sam Altman 认为,人工智能总有一天能够有效地生成足以自行训练的合成数据。

Meta 本身已经利用合成数据对 Llama 3 模型进行了微调。

但是,采用以合成数据为先的方式存在风险。

正如一位研究人员最近跟我指出的那样,用于生成合成数据的模型不可避免地会产生幻觉(也就是编造内容),并且存在偏差和局限性。

所以,要安全使用合成数据,就需要对其进行彻底的管理和筛选——这跟人工生成数据的标准做法是一样的。

要是不这样做,就可能会导致模型崩溃,也就是说模型在其输出中变得没那么“有创意”——而且更有偏差——最终严重损害其功能。

这并非一项容易大规模完成的工作。但随着真实世界的训练数据变得更加昂贵(更不用说获取具有挑战性),人工智能供应商或许会把合成数据当作唯一可行的发展路径。希望他们在采用的时候能谨慎些。

AI 概述中的广告: 谷歌表示,很快就要开始在AI 概述里展示广告,这是其为某些谷歌搜索查询提供的人工智能生成的摘要。

谷歌镜头,现已支持视频: 谷歌的视觉搜索应用镜头已升级,具备回答您周围环境近乎实时问题的能力。您可以通过镜头拍摄视频,并询问有关视频中感兴趣对象的问题。(可能也会有广告。)

从 Sora 到 DeepMind: OpenAI 视频生成器Sora的负责人之一蒂姆·布鲁克斯已离开,去了竞争对手谷歌 DeepMind 那里。布鲁克斯在 X 上的一篇帖子中宣布,他将致力于视频生成技术和“世界模拟器”。

持续变化: 由安德森·霍洛维茨支持的 Black Forest Labs 是 xAI 的Grok助手图像生成组件背后的初创公司,已推出测试版 API 并发布了新模型。

没那么透明: 加利福尼亚州最近通过的 AB-2013 法案要求开发生成式人工智能系统的企业公布用于训练其系统的数据的高级摘要。到目前为止,很少有公司愿意表明是否会遵守。该法律给他们的期限到 2026 年 1 月为止。

苹果的研究人员多年来一直致力于计算摄影的研究,而该过程的一个重要方面是深度映射。最初,这是通过立体视觉或者像激光雷达单元这类专用深度传感器来实现的,但这些往往昂贵、复杂,并占用宝贵的内部空间。在很多方面,仅通过软件来完成更可取。这就是这篇名为《Depth Pro》的论文的全部内容。

A列克谢·博赫科夫斯基等人分享了这样一种具有高细节的零样本单目深度估计方法,这意味着它使用单个摄像头,无需针对特定事物进行训练(比如它可以对骆驼进行工作,尽管从未见过骆驼),甚至可以捕捉像头发簇这样的困难方面。它几乎可以肯定已经在 iPhone 上使用了(尽管可能是改进的、定制的版本),但如果您想自己进行一些深度估计,可以通过使用此 GitHub 页面上的代码来尝试。

谷歌在其 Gemini 系列中发布了一个新模型,Gemini 1.5 Flash-8B,声称这是其性能最强的模型中的一个。

作为Gemini 1.5 Flash的“精简”版本,它已经针对速度和效率进行了优化,Gemini 1.5 Flash-8B 的使用成本降低了 50%,延迟更低,并且在AI Studio(谷歌以 AI 为重点的开发环境)中的速率限制提高了 2 倍。

“Flash-8B 在众多基准测试中的表现几乎与 5 月推出的 1.5 Flash 模型旗鼓相当,”谷歌在一篇博客文章中写道。“我们的模型会继续依据开发者的反馈以及我们自身对于可能性的测试来不断完善。”

谷歌表示,Gemini 1.5 Flash-8B 非常适合聊天、转录和翻译,或者任何其他“简单”和“大量”的任务。除了 AI Studio 之外,该模型还可以通过谷歌的 Gemini API 免费使用,每分钟限制 4000 个请求。

说到廉价的人工智能,Anthropic 发布了一项新功能,即消息批次 API,它能让开发人员以更低的成本异步处理大量的人工智能模型的查询。

与谷歌对 Gemini API 的批量请求类似,使用 Anthropic 的消息批次 API 的开发人员可以发送每批最多一定大小(10,000 个查询)的批次。每批会在 24 小时内处理完成,其成本比标准 API 调用低 50%。

Anthropic 表示,消息批次 API 非常适合“大规模”任务,如数据集分析、大型数据集分类和模型评估。“例如,”该公司在一篇帖子中写道,“通过利用[这种]批量折扣,分析整个公司的文档库——可能涉及数百万个文件——在经济上变得更可行。”

消息批处理 API 已处于公开测试版,可供使用,并支持 Anthropic 旗下的 Claude 3.5 Sonnet、Claude 3 Opus 和 Claude 3 Haiku 模型。