AI周报 | Anthropic发布Claude 3.5力压OpenAI;英伟达市值一度登美股之巅

Anthropic发布Claude 3.5模型力压OpenAI

当地时间6月20日,OpenAI的“劲敌”Anthropic公司发布了最新模型Claude 3.5 Sonnet。据Anthropic介绍,该模型是Claude 3.5系列模型中的首个版本,也是Anthropic迄今为止发布的“最强大、最智能”的模型。它不仅在性能上超越了竞争对手和自家此前最先进的Claude 3 Opus模型,还主打高性价比。

具体来看,Claude 3.5 Sonnet在研究生水平推理 (GPQA)、编码能力 (HumanEval) 、文本推理(DROP)等方面的成绩均好于GPT-4o,但在数学问题解决能力上稍逊于后者。成本方面,该模型的每百万输入token收费3美元,每百万输出token收费15美元,上下文窗口为20万token。

点评:AI技术的不断演进中,Anthropic的Claude 3.5 Sonnet模型虽未带来翻天覆地的变化,却代表了AI模型发展的现阶段现实:在期待重大科研突破的同时,实现逐步的性能提升,即在等待重大研究突破的同时,持续进行小步快跑。近几个月,包括谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o在内的旗舰产品,仅在基准测试和性能上实现了小幅提升。由于现有模型架构的局限性和训练所需的巨大计算资源,业界尚未再次见证类似从GPT-3到GPT-4的巨大飞跃。

英伟达市值登上美股之巅

美股6月18日,英伟达盘中涨幅接近4%,市值超过3.4万亿美元,一夜暴增超过1000亿美元,超过微软首次成为全球市值最大公司。美股6月20日盘中,英伟达、微软、苹果三家科技巨头市值合计达10万亿美元,不过,截至收盘,三家科技巨头股价跳水,英伟达跌3.54%,苹果跌2.15%,微软跌0.14%,市值分别为3.22万亿美元、3.22万亿美元、3.31万亿美元。美股6月21日收盘,英伟达市值又跌至3.11万亿美元,两日市值蒸发超2000亿美元,美股市值第一为微软。

点评:三大科技巨头你方唱罢我登场,坐席并不稳固。这意味着市场对哪家公司最有价值的共识未达成。三大科技巨头都涉及AI,但布局内容不同:微软握有OpenAI股份并布局云计算,苹果终端设备被认为是适合AI落地的场景,英伟达也是当前最重要的AI基础设施供应商。三家市值波动引发市场关注,有分析人士认为,现在美股几乎一切都依赖于英伟达和苹果,不用怎么大动干戈就能让市场下跌。

黄仁勋套现超6000万美元

英伟达参与美股市值前三的市值"争夺战"之际,英伟达正在增强自身在产业链中的影响力,同时面临诉讼以及高管减持。英伟达CEO黄仁勋于6月18日、6月17日、6月14日和6月13日每日减持12万股公司股票,这四日减持股票对应总市值约6308万美元。黄仁勋还计划于6月20日减持12万股公司股票,对应总市值1630.49万美元。美国联邦最高法院周一则决定,同意审理一桩有关投资者起诉英伟达及管理层误导市场的案件。

点评:据英伟达5月底发布的10-Q文件,今年3月14日,黄仁勋通过了10b5-1规则交易安排,将在2025年3月31日前出售最多60万股普通股。但这些股票占黄仁勋总持有股票的比例较小,截至今年3月25日,黄仁勋累计持有超9000万股的英伟达股票。英伟达股价水涨船高,是持股员工和高管致富的机会。

华为鸿蒙NEXT首次将AI能力融入系统

在6月21日的华为开发者大会(HDC2024)上,华为发布了HarmonyOS NEXT 全场景智能操作系统。据华为相关负责人介绍,鸿蒙NEXT首次将AI能力融入系统。华为表示,将带有表格的图片交给智能助手小艺,可以转化为一张表格;收到一个团建邮件后,说导航去这个地方,小艺可规划路线;跟小艺说将某日的日程安排短信发给某人,小艺就会从日历中调取相应安排并发送短信。

点评:华为小艺的AI功能与苹果有一定相似性,都能进行手机应用间的协作且交互自然。此前苹果在WWDC大会上介绍,接入AI能力后,自然且贴合语境,如Siri可理解上下文,当用户询问某地天气后,便可要求Siri为在当地的活动设置日程,而无需再强调地点。AI让手机智能助手减少了此前交互时的机械化。

朱啸虎:五年后不会再有独立的大模型公司存在

在6月21日的创投十年高峰论坛上,金沙江创投主管合伙人朱啸虎发表演讲时表示,五年以后不会再有独立的大模型公司存在,要么是AI应用公司,要么是云服务。今天的大模型公司很难单独存在,因为没有自己单独的商业模式,在成本线以下了。

今天很多大模型公司都在做C端应用,虽然C端应用确实能够创造很多的价值,但朱啸虎认为,今天的C端应用明显不够成熟,还没有到时机点,到明年的时机才可以探讨应用。“在B端上首先采用的都是企业服务端,只要能够给企业创造价值,即使价格贵一点,企业也是愿意用的。”

点评:在B端应用上,朱啸虎还提到一个观点是,AI取代摸鱼的白领很容易。他表示,OFFICE的用户约为10亿白领,平均产值4万美金,而AIGC提高20%效率是近期就比较容易实现,“大部分白领上班是摸鱼的,用AI取代那些白领就能创造40万亿的20%——8万美金。”在谈及这点时朱啸虎分享了一个北欧的案例Klarnr,“它就套个壳,轻而易举就优化掉700个客服人员,差不多每年增加4000万美金的利润。”

首个AI高考全卷评测结果发布,数学全不及格

在前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。

语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生·浦语2.0排名第三,三个大模型的得分率均超过70%。从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分,来自书生·浦语2.0,其次是GPT-4o,得分73分。语文最高分是通义千问,英语最高分是GPT-4o。

点评:在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。上海人工智能实验室领军科学家林达华此前在采访中对第一财经介绍,复杂推理关系到落地应用时大模型的可靠性,例如在金融这样的场景下不能在数字上有差错,会对数学上的可靠性有较高的要求。

OpenAI收购数据库分析公司Rockset

6月22日,OpenAI发布公告称完成了对数据库检索和分析公司Rockset的收购。公司将整合Rockset的技术和人员,强化各项产品的检索基础设施。OpenAI并没有透露交易的具体金额。Rockset去年8月时曾透露,公司创立以来一共筹集到了超过1亿美元的资金。

OpenAI在公告中表示,AI有机会转变消费者和机构利用自己数据的方式,Rockset是处于市场领先地位的实时数据库分析供应商,提供世界一流的数据索引和查询能力。这些技术能够使用户、开发人员和企业更好地利用自己的数据、访问实时信息,以便提高使用AI产品和构建更智能应用程序时的效率。

点评:Rockset提供一种名为“向量搜索”(vector search)的关键技术,能帮助OpenAI增强快速访问和分析大量信息的能力。据公开信息,Rockset成立于2016年,由前Facebook工程师和架构师创立,他们开发的工具,旨在帮助客户自动从各类本地、云端数据库中获取数据,并为后续的检索和分析应用建立索引。随着越来越多公司使用人工智能驱动推荐引擎、语音助手、聊天机器人等应用,这项技术的应用场景也变得越来越宽广。

OpenAI 前首席科学家 Ilya 宣布成立新公司

6月20日,OpenAI联合创始人、前首席科学家伊利亚·苏茨克维(Ilya Sutskever)在社交平台X上发文,宣布成立新公司SSI(safe superintelligence,安全超级智能)。他表示新公司将致力于追求安全超级智能,“只有一个重点、一个目标和一个产品。我们将通过一支精干的小团队取得革命性的突破,从而实现这一目标。”

Ilya Sutskever对媒体表示,“这家公司的特殊之处在于,它的第一个产品将是安全的超级智能。在此之前,它不会做任何其他事情。它将完全不受外界压力的影响,不必处理庞大而复杂的产品,也不必陷入竞争激烈的赛跑中。”

点评:某种程度上,这是伊利亚对老东家OpenAI关于安全主义和加速主义之争的回应。OpenAI在创立初期的主要目标是研发能够达到甚至超越人类智能的通用人工智能(AGI),确保它能够造福人类并规避潜在的安全风险。但庞大的研发资金需求让OpenAI开始与科技巨头微软进行合作,转向商业化的道路,偏离了最初的目标,也遭受了发起人之一马斯克的猛烈抨击。

黄仁勋称痛苦折磨、长时间工作、应对挫折和机遇是他的能力

当地时间6月15日,英伟达CEO黄仁勋站上美国加州理工学院的讲台,面向毕业生发表演讲。黄仁勋回顾了GPU的诞生和对AI的推动,以及英伟达避开竞争对手发掘新市场的过程。“重要的是,我们培养了敏捷性和韧性文化。遇到一次又一次挫折,又摆脱挫折,滑向下一个机会。在我所看重的能力中,智力不在首位。我忍受痛苦和折磨的能力、长时间工作的能力、应对挫折和看到眼前机遇的能力,这些都是我的超能力,希望你也有。”黄仁勋向毕业生说。

点评:人们愿意窥见英伟达成功的秘密,也愿意听黄仁勋分享他的见解。英伟达曾想进入移动市场,受挫之后才决定制造当时几乎没有客户的产品——机器人,以便处理深度学习算法。历史证明英伟达的选择是正确的。正确地应对挫折并发掘机遇,是企业家走向成功几乎不可少的能力。

阿里云推出首个AI程序员

6 月 21 日,在阿里云上海 AI 峰会上,阿里云推出首个“AI 程序员”,它具备架构师、开发工程师、测试工程师等多种岗位的技能,能一站式自主完成任务分解、代码编写、测试、问题修复、代码提交整个过程,最快分钟级即可完成应用开发,大幅提升研发效率。

据介绍,该AI程序员是基于通义大模型构建的多智能体,每个智能体分别负责具体的软件开发任务并互相协作,可端到端实现一个产品功能的研发,这极大地简化了软件开发的流程。例如,在编码智能体中,AI程序员首创了代码仓库知识图结构,不仅能理解用户的需求,还能精准定位代码对应的修改位置并自动给出修改方案。

点评:AI代码正在成为越来越多公司的布局方向。阿里云通义大模型业务负责人徐栋表示,软件应用的开发范式正在发生改变,未来用户只需定义问题、提出需求,分钟级完成一个应用开发将成为常态。通过AI编程助手和AI程序员的共同加持,每个人类程序员都将成为超级个体。”

黄仁勋推动英伟达进军软件和云服务领域

近日消息称,去年底英伟达CEO黄仁勋与高管召开了一系列会议,讨论一个日益令人担忧的问题,即英伟达最大的客户是否会耗尽数据中心的空间以安装英伟达芯片,这或将影响英伟达的销售。黄仁勋不希望公司有一天可能会像思科等曾经的硬件巨头一般走向衰落,他正推动公司进军软件和云服务领域,与其最大的客户展开竞争。

点评:近一年多来,华尔街总爱拿英伟达与思科作对比。两家公司颇有相似之处。思科在本世纪初互联网泡沫时期市值一路飙升,2000年3月登上美股市值之巅,随着互联网泡沫破裂,市值经历暴跌。英伟达近一年多市值也在飙升。此外,两家公司都是硬件厂商。英伟达无疑希望巩固自身在AI领域的地位以避免衰落。在近一年多时间里,英伟达的软件布局确乎加快了,2023年,英伟达推出了NVDIA DGX Cloud人工智能即服务平台。黄仁勋给英伟达留的另"一手"则可能是"主权AI"。这个概念是指一个国家利用自己的基础设施、数据、劳动力和商业网络建造AI的能力,当前各国正在投资"主权AI”。