智能周报|大模型技术浪潮里的机会和陷阱

撰文 | 新皮层小组

编辑 | 吴洋洋

ChatGPT发布已整整两年,跳入其中寻找机会的人并没有减少。

越来越多人离开曾经稳定的大厂,加入创业浪潮。在华为车BU前CTO陈亦伦今年7月创立了机器人公司「它石智航」后,本周,市场传出消息称地平线副总裁余轶南也离职加入了具身智能创业,几乎同时,小米汽车自动驾驶产品技术负责人刘方也传出离职,未来方向也是机器人。机器人热潮之外,AI原生应用的开发者们也有越来越多人不再满足大厂的缓慢节奏和回报,开始单干。比如Google的明星AI原生产品NotebookLM,这个AI笔记应用在推出音频概述功能并可生成对话式播客后,应用访问量在10月达到了创纪录的3150万次。本周,该产品的核心团队宣布集体离职,虽然只有3个人,但在PMF(产品市场匹配)能力稀缺的时代,融到资只是早晚的事。

在遍地是机会、效率和创新精神决定一切的时候,大厂的庞大身躯已经成为一种劣势。苹果在本周被媒体爆出与百度的合作卡关,在测试使用文心大模型解决用户需求时存在响应准确性的问题。这一窘境既是百度的,也是苹果的,后者迄今没有开发出能力比肩于OpenAI、Anthropic等独角兽公司的大模型,甚至连同为大公司的Google也不及。不过Google的状况也好不到哪儿去,本周一,李飞飞创立的「空间智能」公司World Labs发布了一个可以把2D照片变成3D视频的系统,用户可以像戴上VR眼镜一样在生成的3D场景中自由移动。这个系统相当于是一个「世界模型」(world model)。3天后,Google也发布了可以将2D照片变成3D视频的模型Genie 2。这项发布的时间可能是早已规划好的,也可能是迫于李飞飞公司的压力紧急安排的。要知道,李飞飞的World Labs公司今年1月成立,迄今不到1年。

OpenAI似乎也没想让Google好过。今年5月得知Google即将在其开发者大会发布可以看人所看、听人所听还能与人即时口头交流的新模型Astra后,OpenAI提前一天举办了一个线上发布会,发布了同类模型GPT-4o。继那次恶作剧后,OpenAI本周再次施展了要抢Google风头的技能,于Google发布Genie 2的同一天——12月5日,宣布了一个为期12天的连续发布计划,并于当天上线了推理模型OpenAI o1的正式版及高级版o1-pro。

同样身处大厂窘境的还有英特尔和商汤。两家公司一个在本周把CEO赶下了台,另一家公司把公司给拆分了,理由都是为了更好地应对市场竞争。

不过,遍地是机会的时候,效率和创新精神其实也不完全决定一切,如果只懂技术不懂法律,创业也可能充满陷阱。本周,中国明星初创公司月之暗面遭到了金沙江投资人朱啸虎发起的进一步舆论攻击,指责前者在离开原公司(循环智能)创业时没有取得完整合法手续,而且其绑定的股东之一张予彤在接受月之暗面股份时与她自身的投资人身份存在利益冲突。目前,金沙江等投资机构已对月之暗面创始人杨植麟和联合创始人兼CTO张宇韬,在香港国际仲裁中心提起仲裁。

以下内容由「新皮层」团队制作,欢迎关注。

Key Points

大模型及应用

李飞飞公司发布3D生成系统,直接把2D照片变3D视频;

Google发布世界模型Genie 2,可以生成3D世界并预测角色动作;

ChatGPT探索在回答中植入广告;

OpenAI开启12天连续发布计划,首日发布推理模型o1正式版及o1-pro;

苹果为使用百度大模型付了100亿美元,但模型效果不如意;

Copilot的「Vision」功能上线;

公司动态

地平线副总离职创业机器人;

小米自动驾驶负责人刘方离职,加入机器人创业;

效仿阿里巴巴,商汤也把公司拆了;

Google NotebookLM核心团队集体离职创业;

有了首位CFO后,OpenAI又有了首位CMO;

英特尔新CEO可能是个华人;

月之暗面陷股权危机。

大模型及应用

李飞飞公司发布3D生成系统,直接把2D照片变3D视频

12月2日,李飞飞创立的空间智能公司World Labs发布一个人工智能系统,它能够通过单个2D图像生成3D场景。只用上传一张图片,该系统就能将其变成一个3D场景,然后用户就能像戴上VR眼镜一样在这个场景中自由移动、从多个角度审视场景并观察某个物体的细节。此外,该功能还可被用于改变2D照片的景深,模拟推拉变焦或调整机位效果。此前,业内已有的3D生成模型多基于像素进行生成,存在分辨率低且视角不稳定的问题。相较而言,World Labs生成的3D环境稳定、可交互且可修改。在博客文章中,World Labs并未将这项成果称为模型,而是「AI系统」。官方称,这些成果是早期预览,目前已对公众开放候补试用。

Google发布世界模型Genie 2,可以生成3D世界并预测角色动作

12月5日,Google DeepMind发布最新版基础世界模型Genie 2。它能够将2D图片直接转换为3D视频,并且,人类或者AI智能体可以控制这个3D世界中的角色,当用户通过键盘和鼠标发出指令后,Genie 2会根据这些操作预测用户控制的角色下一步会发生什么。而且,DeepMind称,Genie 2可以从同一个起始帧生成不同的轨迹,能够记住视野外的部分,然后在它们再次可见时准确呈现它们,并可以创建不同的视角。在一致性方面,Genie 2最长可以生成一分钟,官方的大多数示例持续10至20秒。

ChatGPT探索在回答中植入广告

12月2日,有报道称,OpenAI考虑在人工智能产品中引入广告,以开辟新的收入来源。此前,主做AI搜索的Perplexity已经在产品中植入广告。OpenAI目前在向营利性企业转型,OpenAI首席财务官Sarah Friar表示,公司会「谨慎选择」广告投放的时间和场景,在推出广告这件事上不是很着急。但今年5月,OpenAI已聘请Google广告前负责人担任公司副总裁。目前,OpenAI的主要收入来源是ChatGPT会员费用,以及应用程序接口(API)接入费用,其中API的收入并不理想。

OpenAI开启12天连续发布计划,首日发布推理模型o1正式版及o1-pro

当地时间12月5日,OpenAI首席执行官Sam Altman宣布从当日开始将连续12个工作日发布新的AI功能和产品。活动首日OpenAI推出了月付费200美元的ChatGPT Pro以及正式版的推理模型o1。ChatGPT Pro将使用o1的升级版模型o1-pro。和此前发布的测试版推理模型o1-preview相比,o1和o1-pro在数学和代码领域都有明显提升,后两者在AIME数学竞赛中的得分较o1-preview提升超50%,在Codeforces代码竞赛中得分较preview版本提升超40%。在GPQA Diamond博士级别的科学问题测试中,后两者的表现也略优于preview。

苹果为使用百度大模型付了100亿美元,但模型效果不如意

12月4日,有报道称,苹果和百度正在合作为在中国销售的iPhone添加Apple Intelligence功能,但双方的合作目前遇到阻碍。不过目前,苹果和百度都没有对此消息做出公开回应。据报道,苹果和百度工程师们正在共同改进文心大模型,使其更适合iPhone用户,但该模型在理解提示词和常见场景的响应准确性上仍然存在困难。此外,报道称两家公司还因如何使用iPhone用户数据来训练和改进模型产生了分歧。百度希望保存并分析从iPhone用户的AI相关查询中获得的数据,但苹果的隐私政策则禁止收集此类数据。

Copilot的「Vision」功能上线

12月5日,微软正式开始测试全新功能Copilot Vision。这项功能于今年10月首次发布,旨在让AI助手「看见」用户在浏览器中浏览的网页,并对页面上的文字、图片和内容进行分析。「当你选择启用Copilot Vision时,它会『看到』你所在的页面,与你一起阅读,并帮助你解决问题,」微软Copilot团队在博客中表示,「浏览网页不再是孤独的体验,你不再只是面对满屏的标签页。」Copilot Vision是一项可选功能,用户需要明确授权后,AI助手才能读取网页内容。在10月的功能展示中,微软演示了AI助手如何读取OneDrive中的图片,甚至能够识别手写的菜谱并提供烹饪建议。此外,在网上购物时,用户还可以利用这一功能获得商品推荐。

公司动态

地平线副总离职创业机器人

12月2日,有报道称,地平线前副总裁、软件平台产品线总裁余轶南已于近期正式离职。离开地平线之后,余轶南将从事具身智能创业,主要做消费级产品方向,包含机器人。余轶南2015年加入地平线,是地平线最早创始人团队成员之一,曾任百度深度学习研究院科学家,是百度-清华联合培养博士,其导师是地平线创始人、CEO余凯。在地平线近10年的任职期间,余轶南一直从事自动驾驶、计算机视觉等领域的研究。

小米自动驾驶负责人刘方离职,加入机器人创业

12月3日,有消息称,小米汽车自动驾驶产品技术负责人刘方已离职。「新皮层」了解,刘方已不在小米内部通讯录名单中。爱企查显示,刘方于今年9月注册成立了一家人形机器人公司「阿米奥机器人」。10月也曾有报道称,刘方将入职安克创新,负责刚组建的具身智能团队,直接向安克创新副总裁、智新科技总裁祝芳浩汇报。刘方是小米最早期的一批员工,离职前担任小米汽车自动驾驶产品技术负责人和量产负责人,参与了小米自动驾驶团队筹建、技术研发和量产落地的全过程。加入小米前,刘方在Google中国搜索业务部门任职。

效仿阿里巴巴,商汤也把公司拆了

12月3日,商汤科技董事长兼CEO徐立发布全员信,宣布组织调整结束,公司启用「1+X」的新架构。其中,「1」代表以生成式AI为核心的商汤核心业务,「X」则代表商汤集团重组拆分的生态企业,包括智能汽车「绝影」、家庭机器人「元萝卜」、智慧医疗、智慧零售等,各生态企业设立独立的CEO。后续,这些生态企业可能获得灵活的激励机制和融资通道。目前,商汤非核心业务中只单独披露了智能汽车「绝影」的发展状况。根据商汤2024年上半年财务报告,「绝影」业务收入1.68亿元,同比增长100.4%,在商汤公司营收中占比提升至9.7%。

Google NotebookLM核心团队集体离职创业

12月3日,Google旗下大模型应用NotebookLM团队原负责人Raiza Martin在社交媒体宣布离职创业。与她一起离职创业的,还有NotebookLM设计师Jason Spielman和核心工程师Stephen Hughes。Martin接受媒体采访时称,三人创办的新公司业务将面向消费者,用最新的人工智能模型开发一些对普通人有用的产品。该公司仍处于起步阶段,尚未宣布任何融资,其网站也显示「正在建设中」。NotebookLM是Google Labs的实验性AI应用,由Google大模型Gemini 1.5 Pro提供支持。产品上线于2023年7月,最初只是一款能够根据文件内容生成文字摘要的AI笔记应用,核心团队规模不到10人。今年9月,NotebookLM推出音频概述功能,可以生成对话式的播客,用户数量大涨。10月,该应用的访问量同比激增超过200%,达到了3150万次。有报道称,NotebookLM未来将被集成到智能手机的Gemini App中。

有了首位CFO后,OpenAI又有了首位CMO

12月3日,OpenAI宣布引入加密货币交易所Coinbase前高管Kate Rouch担任首任CMO,新的人事任命于12月10日生效。Kate Rouch称, 她的主要工作是面向终端消费者和企业客户推销包括ChatGPT在内的OpenAI旗下产品套件,同时负责与外界沟通OpenAI开发AGI的使命。Kate Rouch在品牌营销领域工作多年。自2010年离开贝恩公司的咨询工作后,她在社交网站Meta的营销部门工作了11年,最终成为公司品牌和产品营销的副总裁,工作范围涵盖Facebook、Instagram、WhatsApp以及Messenger等公司核心App产品。2021年8月,Kate Rouch转而加入加密货币交易所Coinbase,担任后者首任CMO,推动公司投放美国超级碗广告。

英特尔新CEO可能是个华人

12月4日,有报道称,在基辛格(Pat Gelsinger)于周一辞职后,英特尔正在积极考虑几位CEO候选人,其中就包括前董事会华裔成员陈立武(Lip-Bu Tan)。周一,该公司还任命首席财务官David Zinsner和高管Michelle Johnston Holthaus为临时联席首席执行官。陈立武于1959年出生于马来西亚的华人家庭,本科毕业于南洋理工大学物理学,后又分别在麻省理工学院、旧金山大学获得核工程硕士学位和工商管理硕士学位。2004年,陈立武加入Cadence,并在2009年至2021年期间担任Cadence的CEO,同时还在软银、惠普、AMCE、伟创力等公司担任过董事等职位。2022年9月,陈立武加入英特尔,主要负责与芯片制造相关的核心业务。

月之暗面陷股权危机

12月5日,金沙江创投主管合伙人朱啸虎公开了月之暗面仲裁案的关键细节。朱啸虎称,月之暗面原是循环智能内部开发了两年的项目;循环智能董事会同意拆分月之暗面的签字或可被认为无效,因为循环智能时任董事、金沙江创投原主管合伙人张予彤隐瞒了自己持有14%的月之暗面免费初始股份。朱啸虎表示:张予彤这一行为违背了其职务责任,已被金沙江创投解雇。12月6日晚,月之暗面创始人杨植麟发文回应称,离开前公司(指循环智能)重新创业获得了每一位董事的签字同意和所有必要手续。