苹果AI登场,与OpenAI合作,Siri将采用GPT-4o;全球AI独角兽达37家;OpenAI自研芯片进展曝光丨AI情报局
融资快报
FINANCING NEWS
Harvey寻求20亿美元估值:法律AI初创公司Harvey一直在与投资者商谈融资6亿美元的事宜,公司估值至少20亿美元。Harvey称如果能筹集到这么多资金,就有可能收购法律研究服务公司vLex,以培训自己的产品。
Seven AI获3600 万美元融资:Seven AI是一家通过 AI 帮助企业增强网络攻击防御能力的初创公司。本轮融资由Greylock领投,CRV 和 Spark Capital 也参与了 Seven AI 的融资。
AIGT获3500万美元的天使轮融资:AIGT是一家AI技术开发商,通过引领和实施人工智能技术,促进东南亚国家在全球科技竞争中的地位。OpenAI投资2000万美元,微软M12 Microsoft's Venture Fund INC投资1500万美元,推进AI手机的研发项目。
Thoughtly获300万美元种子轮融资:Thoughtly是一家AI语音代理服务提供商,提供了一个无代码平台来部署AI语音代理。本轮融资由Afore Capital、Greycroft Partners、Expansion Venture Capital投资。
Bem获370万美元种子轮融资:Bem是一个AI数据结构化接口初创公司。平台充当通用通信协议,工程团队能够使用Bem促进不同系统之间的无缝数据交换。本轮融资由Uncork Capital领投,Lookout的创始人Kevin Mahaffey、Roar Ventures以及包括Y Combinator的Garry Tan在内的天使投资者也参与了投资。
Cartwheel获560万美元种子轮融资:Cartwheel是一家专注于使用AI简化3D动画制作过程的初创公司,通过简单的文本描述生成基础的3D动画。本轮融资由Accel领投,Khosla Ventures、Human Ventures、Heretic VC、MVP Ventures、Correlation Ventures、Pelion VC和多位天使投资者参投。
Tektonic AI获1000万美元种子轮融资:Tektonic AI为企业运营提供GenAI智能体,使企业能够消除重复且效率低下的任务。本轮融资由Madrona和Point72 Ventures领投。
Sixfold完成1500万美元A轮融资:Sixfold是一家专注于为保险承保提供端到端风险分析的生成性AI解决方案的公司。本轮融资由Salesforce Ventures领投,Scale Venture Partners以及包括Bessemer Venture Partners和Crystal Venture Partners在内的投资者参与。
Greptile 获400 万美元的种子轮融资:Greptile 使用人工智能帮助开发人员理解代码库。此次融资由 Initialized Capital领导,吸引了各行业知名天使投资者的参与。
镜识科技获得战略投资:镜识科技是一家通用足式机器人研发商,团队首次提出了机器人耦合动力学理论,开发了相应基础关键硬件、机器人操作系统以及数据驱动的控制软件。近日镜识科技获得战略投资,投资方为凯尔达。
惠尔智能完成数千万元A轮融资:惠尔智能是一家AI驱动的出行科技公司,聚焦于L4级自动驾驶相关产品。本轮资金将用于自动驾驶技术研发和产品迭代、海外市场拓展等。
杉木再获数千万元Pre-A轮融资:杉木SHANMU致力于成为AIGC时代的全球第一家AI家庭医生机器人企业。本轮由上市公司「松霖科技」的大股东松霖集团领投,庚辛资本、万物为资本跟投。庚辛资本担任长期独家财务顾问。
业界动态
INDUSTRY NEWS
国内情报
全球 AI 领域“独角兽”企业达 37 家,过去一年新增 17 家,中国新增 5 家:
截至今年 4 月底,生成式 AI 领域的“独角兽”(系估值超过 10 亿美元的未上市企业)企业达到 37 家。与去年 4 月底的 20 家相比数量过去一年内几乎翻了一番。
美国企业仍占 AI 独角兽企业 9 成的份额,而在最近一年内新增的 17 家企业里面,有 10 家将主要基地设在了美国以外的地方,英伟达向 Cohere(加拿大)等 7 家企业出资,谷歌母公司 Alphabet 则向涉足视频生成领域的 Runway(美国)等 4 家企业出资。中国则在过去一年内新增了 5 家独角兽企业,包含月之暗面、MiniMax、零一万物、百川智能和智谱 AI,这些企业均获得了阿里巴巴集团的投资。
HeyGen正逼走中国风投,强制要求红杉中国、真格等机构把股份卖给美国投资者:
成立于深圳、后来把总部迁到美国洛杉矶的生成式 AI 初创公司HeyGen,要求其中国投资者IDG资本、百度风投、红杉中国、真格基金把股权卖给美国投资者。
知情人士称,美国投资者和HeyGen创始人徐卓希望“整顿股权结构表”,即投资者名单,因为美国方面正在加强对中国科技集团和跨境投资的审查。今年3月,HeyGen完成了硅谷Benchmark领投的一轮融资,使得红杉中国等中国投资者大幅减少股份。对此,红杉中国和HeyGen拒绝置评。Benchmark、IDG资本、百度风投和真格基金没有回应置评请求。(钛媒体)
华为宣称Ascend 910B AI芯片成功超越A100 成为中国市场的重要替代品:
华为Ascend与鲲鹏部门首席运营官汪涛表示,Ascend 910B AI芯片在训练性能上已成功超越英伟达A100 AI GPU达20%,缩小了与英伟达 A100 的差。除此之外,腾讯控股和百度等中国领先企业也购买了Ascend 910B芯片,主要用于会议任务。
华为将把小艺打造成超级助手,融合5.5G、AI能力:
华为公司高级副总裁、中国区总裁曹既斌表示,AI智能助理将改变人机交互模式,打破用户时空约束,带来海量、高并发的连接需求。“华为是最早把AI引入到智能手机的,下一步我们将基于盘古大模型把‘小艺’打造为超级助手,融合5G-A、AI的能力,给用户提供体验更好的终端。”
字节跳动计划在马来西亚投资21亿美元建区域人工智能中心:
马来西亚贸易与工业部部长扎夫鲁在社交媒体X发文称,字节跳动计划在马来西亚投资100亿林吉特(约合21亿美元)以建立一个区域人工智能中心。扎夫鲁称,字节跳动还计划额外追加15亿林吉特投资扩建其在马来西亚柔佛州的现有数据中心设施。字节的追加投资将有助马来西亚实现到2025年数字经济占GDP比重增长到22.6%的目标。
百度搜索推出大模型升级版高考服务,看分数就知道能上什么大学:
在百度 APP 搜索“高考”,可直达高考服务页面,提供在线查分、志愿填报、院校专业、录取查询等功能,覆盖考前、考中、考后三大阶段。AI 志愿助手推出专属智能体,可简化填报流程,并结合权威数据给出准确答案。此外,百度搜索整合权威院校专业数据,可深入了解大学概况、专业就业方向、排名,还能了解薪资水平及男女比例等。
阿里云开源通义千问 Qwen2 大模型,上下文窗口最高达 128K:
阿里云通义千问发布 Qwen2 模型,该模型在 Qwen1.5 的基础上进行了重大升级,目前已在 Hugging Face 和 ModelScope 上开源。更新内容包括:增加了 5 种尺寸的预训练和指令微调模型;在中英文基础上增加了 27 种语言相关数据;在多个评测基准上表现领先;代码和数学能力显著提升;上下文长度支持最高达到 128K tokens。
清华系细胞大模型登Nature子刊!能对人类2万基因同时建模,代码已开源:
清华、百图生科团队提出单细胞基础大模型 scFoundation,登上 Nature Methods,相关研究成果也被 NeurIPS2024 接收。该模型基于 5000 万人类单细胞测序的数据进行训练,参数达 1 亿,计算时间为传统 Transformer 架构的 3%左右,在下游任务中表现出卓越的性能提升,并为基因网络推断和转录因子识别提供了新的研究思路。
张亚勤称Transformer五年内会被逐步重构,15-20年内实现AGI:
张亚勤院士点名了AI大模型的五个发展方向,包括多模态智能、自主智能、边缘智能、具身智能、生物智能。他认为,无人驾驶是未来五年最大具身智能应用,并且是第一个通过“新图灵测试”的具身智能。2025年,实现无人驾驶的“ChatGPT时刻”;2030年,无人驾驶汽车将成为市场主流,预计有10%的新车具备L4级别的自动驾驶能力。
张亚勤预计,在未来10年内,大模型和生成式AI将成为主流技术和产业路线;并在15-20年内实现通用人工智能,并通过“新图灵测试”基础大模型将是人工智能时代的技术底座,将与垂直产业模型及边缘模型一起形成新的产业生态。他还谈到现在大模型需要新算法体系,Transformer、Diffusion、AR在5年内会被逐步重构。
更多国内情报
字节上线 AI 虚拟交友聊天平台“小黄蕉”:字节推出AI 虚拟交友聊天产品,可以生成照片,非常接近真人对话情景。
华为联合中山眼科发布ChatZOC眼科大模型:ChatZOC基于眼病知识库和中山眼科中心大数据平台构建,结合最新眼科指南和文献资料,通过华为基础 AI 计算框架和多种先进技术,实现数据的多维度处理和模型学习。
腾讯联合中山大学、港科大推出图生视频模型“Follow-Your-Pose-v2”:只需要输入一张人物图片和一段动作视频,就可以让图片上的人跟随视频上的动作动起来,生成视频长度可达 10 秒。支持多人视频动作生成,泛化能力强。
上交港中文新框架超越Instant3D,5秒完成3D生成:该框架结合微调的多模态大模型,利用 2D 和视频扩散模型生成多视图图像,并通过微调的 3D 多模态大模型进行质量筛选和描述重写,从而自动产生大量高质量的 3D 图像数据,辅助训练更优秀的多视图扩散模型。Bootstrap3D 数据集已全面开源。
北大博士生等全新 BoT 框架推理暴涨 70 倍,24 点图形推理一步成神:BoT 可有效提升 LLM 在多个任务上的性能,在 BoT 的加持下,Llama3-8B 在多项任务中的性能甚至超越了 Llama3-70B,且 BoT 的成本相对较低。
微信输入法内测AI功能,输入后按=获取AI回答:用户在使用输入法时,只需输入相关内容,并按下等号键“=”即可直接获取AI生成的回答。这项功能不仅能够提供介绍,还能根据用户输入的关键词,给出相应的信息反馈。
“AI 预测宝宝长相是不是智商税”上热搜,专家称娱乐性大于准确性:利用四维彩超图生成一张宝宝照片最低只需 6.8 元,等待半小时就能出片。 专家表示这种预测只能作为娱乐和参考,并不能完全相信。
广东到 2025 年全省 AI 核心产业规模将超过 3000 亿元:广东发布文件计划 2025 年 AI 核心产业规模超过 3000 亿,2027 年算力规模超 60EFLOPS,2027 年智能软件产业规模达到 270 亿,人工智能自主软件覆盖率达到 50%。
国际情报
苹果AI来了!与OpenAI建立合作,Siri将采用GPT-4o
6月11日凌晨,在WWDC 2024活动上,苹果AI正式推出并命名为Apple Intelligence,苹果AI将会为iPhone、Mac等设备提供一系列AI功能。据介绍,苹果AI拥有管理通知推送、自动转写及生成摘要、生成图片、照片一键清除等AI功能。
据悉,苹果语音助手Siri也植入了AI功能,据现场介绍,苹果宣布和OpenAi公司建立合作,整合对方的ChatGPT。未来将会在Siri中采用GPT-4o,同时,苹果新的操作系统也支持OpenAI的AI写作、文生图等技术。
Apple Intelligence即将登录A17Pro、M1、M2、M3、M4芯片的设备,即手机只适用于iPhone 15 Pro和iPhone 15 Pro Max以及M1或更高的Mac/iPad设备。Apple Intelligence今年夏季将在美国推出英文版使用。(鞭牛士)
原马斯克擎天柱大将在Hugging face开源机器人技术,会做家务的大白复刻低至1800:
Hugging Face机器人项目Le Robot发布机器人Reachy2。它能像机器人大白一样,听懂并正确执行人类发出的指令,比如放杯子、拿水果。团队领军人物Remi Cadene1月才从特斯拉Optimus机器人团队离职。Reachy2数据集和使用的模型都已开源,开源框架和工具也放在了GitHub。机器人ML框架LeRobot,采用了Apache-2.0协议,可免费商用,据作者称达到了SOTA水准,在GitHub上已经斩获了3.4k+星标。
OpenAI自研芯片进展曝光!百万年薪挖角谷歌:
OpenAI计划将目前仅有数人的芯片团队扩展至数十人,且几乎所有新招募的研究人员均为谷歌TPU团队的现任或前任成员。加入OpenAI的团队成员将有机会参与从零开始的创新设计过程,尝试更激进的方法,构建由数百万个加速器组成的系统。
GPT-4欺骗人类高达99.16%惊人率!LLM推理越强欺骗值越高:
德国科学家发表的PANS论文揭示LLM已经涌现出「欺骗能力」,它们可以理解并诱导欺骗策。相比前几年的LLM,更先进的GPT-4、ChatGPT等模型在欺骗任务中的表现显著提升。
目前提出的缓解这一风险的措施,是让AI准确报告内部状态,以检测欺骗输出,还有其他策略检测LLM欺骗行为,按需要测试其输出的一致性,或者需要检查LLM内部表示,是否与其输出匹配。现有的AI欺骗行为案例并不多见,主要集中在一些特定场景和实验中。
Adobe 澄清“霸王条款”,绝不占有用户作品,也不会用于 AI 训练:
此前Adobe更新用户协议,要求用户同意分享作品并允许访问保密作品,用户若不同意则无法使用软件,甚至无法卸载。Adobe 发声明称协议“多年来一直如此”,用户表示不满后,Adobe 后又发博客解释称更新协议是为了改进内容审核流程,增加人工审核。并强调不会用客户内容训练 Firefly Gen AI 模型,也不会拥有客户作品的所有权。
限制不当内容传播!谷歌 Play 商店宣布整顿生成式 AI 类 App:
谷歌更新了针对 AI 类应用程序的指导方针,新政策要求生成式 AI应用程序防止生成受限内容,并对其 AI 模型进行严格测试。明确了 AI 生成的违规内容范围,包括不限于:生成的未经同意的深度伪造性材料;为诈骗提供便利的真人语音或视频记录。鼓励有害行为的内容。为助长欺凌和骚扰行为而生成的内容。主要是为了满足“性需求”的内容。使不诚实行为成为可能的 AI 生成“官方”文件。创建恶意代码。
日本将推出官方AI婚姻匹配App,把关身份认证还要“面试”,马斯克点赞:
日本东京都政府开发了一款婚介 App,正在内测,预计今夏上线。该平台要求用户提供身份证明、税单、单身证明,并接受面试和签署誓约书。用户还需提交 15 项个人信息,包括身高、教育背景、职业等。App 通过 AI 匹配对象,马斯克对此表示称赞。东京都政府已为该 App 及其他婚姻促进项目拨款 2 亿日元,并计划在 2024 财年将拨款提升至 3 亿日元。
准确率可达 70%,科学家利用 AI 解读狗的叫声:
研究发现,用于训练人类语音的 AI 模型可以作为训练动物交流模型的起点。这一模型的主要障碍是缺乏公开可用的数据。研究团队尝试使用采集人类语音数据的方式来采集狗的叫声信息,收集了 74 只不同品种、年龄和性别狗狗的吠叫、咆哮和呜呜声。将收集到的声音信息用于分析人类语音的机器模型中,模型可以很好地理解狗之间的交流,在各种测试中准确率达到 70%。
更多国际情报
OpenAI 公开破解 GPT-4 思维的新方法,Ilya 也参与:研究提出了改进大规模训练稀疏自编码器的方法,并成功将 GPT-4 的内部表征解构为 1600 万个可理解的特征。由此,复杂语言模型的内部工作变得更加可理解。
免费匿名使用 GPT 等热门大模型,DuckDuckGo AI Chat 聊天机器人发布:该 AI 聊天机器人可以匿名访问多种模型,通过删除用户个人信息的元数据来实现 AI 聊天的匿名化,并且每日使用次数有限制,以防止不良行为者和滥用。
英伟达CEO黄仁勋跻身全球富豪榜第13位,身价超1060亿美元:过去5年,英伟达股价上涨了近30倍。随着AI芯片需求推动英伟达股价飙升,黄仁勋的财富今年激增超过620亿美元。他的财富来自于持有的英伟达3.5%股份。
AI产品
AI PRODUCTS
双榜首!登顶Hugging Face和GitHub趋势榜Top1
MiniCPM-Llama3-V 2.5:8B 参数,8G 显存,4070 轻松推理,手机端 6-8 tokens/s 高效运行。当前 MiniCPM-V 系列下载总量已超 13 万,GitHub 星标 3k+。
MiniCPM-Llama3-V 2.5 开源地址
https://github.com/OpenBMB/MiniCPM-V
MiniCPM 系列开源地址
https://github.com/OpenBMB/MiniCPM
Hugging Face 下载地址
https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5
Product Hunt热榜,自动化合规与安全审查Vanta
Vanta 是一个提供自动化合规性和安全性审查的平台,致力于帮助 SaaS 企业管理风险和实时证明其安全性。通过支持诸如 SOC 2、HIPAA、ISO 27001、PCI 和 GDPR 等多种标准,Vanta 简化了企业的安全性审查流程,提供对员工、资产和供应商风险的全面视野。平台的功能涵盖框架构建、集成、问卷自动化等,帮助企业加速合规进程并增强客户信任。Vanta 还提供丰富的资源,如直播演示、网络研讨会和客户案例研究,协助企业了解和实施合规性解决方案。
https://www.vanta.com/
GitHub Trending 热榜,结对编程助手Terminal AI - Aider 开源
目前 10.7K Star,在 SWE Benchmark 上获得 SOTA 18.9% Pass@1,远超 Devin!
Aider 是一个AI 辅助编程工具,通过与 GPT-4 和 Claude 3 Opus 等多种语言模型配对,在终端中进行交互式编程。它完美整合了 Git 工作流,支持 JavaScript、Python 和 Rust 等主流编程语言,并具有语音识别功能。Aider 不仅能够协调跨多个文件的更改,还能自动生成合理的 Git 提交消息,并与用户的代码编辑器无缝集成。通过简单的命令,用户即可开始与 Aider 一起工作,显著提升编码效率和工作体验。
Aider 超越 Devin、Amazon Q Developer Agent,成为 SWE Benchmark SOTA 的助手,展示了其在解决实际 GitHub 问题上的强大能力。用户评价也证明了 Aider 在提升编码体验和效率方面的优秀表现。许多用户称它为使用过的最佳 AI 编码助手,并分享了在使用 Aider 过程中显著提升的编码效率和工作体验。
https://github.com/paul-gauthier/aider
开发者推荐
1.LlamaCare:专注医疗应用的大型语言模型
研究人员推出了LlamaCare,一个专门为医疗知识调优的大型语言模型。LlamaCare不仅在处理医疗数据方面表现出色,还引入了扩展分类集成技术,以解决LLM中的分类问题。该模型的推出标志着医疗领域人工智能应用的新篇章,可能大幅提升医疗数据处理和诊断的准确性。LlamaCare通过结合最新的机器学习技术和庞大的医疗数据库,能够在短时间内提供高质量的医疗建议和诊断支持。这一创新不仅有望改善临床医生的工作效率,还能为患者提供更为精准的医疗服务。
https://arxiv.org/abs/2406.02350v1?utm_source=uwl.me
2.Whisper Web:开源浏览器内语音识别工具
Whisper Web 是一个实现浏览器内的语音识别功能。这个项目主要使用 TypeScript(93.0%)和 JavaScript(6.3%)编写,并依赖于Transformers.js 库。最新的更新包括添加 LICENSE 文件和更新 README.md、vite.config.ts 等文件。
https://github.com/xenova/whisper-web
3.Qmedia:为内容创作者打造的开源 AI 内容搜索引擎
Qmedia 是一个开源的 AI 内容搜索引擎,专为内容创作者设计,支持文本、图片和短视频内容的提取与分析。这个多模态的引擎不仅可以整合分散的信息,还通过内容卡片展示信息源头和内容分解,帮助用户生成定制化的搜索结果。Qmedia 支持完整的本地部署,包括 Web 应用、RAG 服务器和 LLM 服务器,确保数据隐私和安全。
https://github.com/QmiAI/Qmedia
4.使用 ControlNet 生成多人物画面指南
这篇文章主要介绍了如何高效使用 ControlNet 和 txt2img 技术生成高质量的多人物画面,涵盖控制姿势和背景、处理复杂图像、以及参数优化等方面。
https://github.com/Zuntan03/EasySdxlWebUi/wiki/
今日热议
HOT NEWS
Mistral AI 黑客马拉松
Mistral 刚刚在巴黎举办了有史以来最大规模的 AI 黑客马拉松。超过 1,000 名黑客报名参加,探索使用开源 LLMs 的无限可能。以下是 @MistralAI x @cerebral_valley 巴黎黑客马拉松的决赛入围者名单:
ArxFlix:自动将研究论文转换为引人入胜的视频摘要,包含图表、文字解释和语音功能。获得第二名微调奖。
Microcosm:创建一个虚拟世界模拟器,有实时新闻、股票市场、模拟维基百科和推特代理。风格类似 Windows 95。获得 @onetwoval 认可。
BREAKING BAD:为医疗化学家提供一个强大的代理框架,使用基于 molinstruction 数据集和高质量化学程序指令的定制数据集进行微调。
LeChatOn:视频的视觉 RAG,使用视觉大型语言模型 (VLLMs) 识别并标注对象,与无限长的视频聊天。获得应用程序一等奖。
Matou Garou:AI 代理模拟的狼人游戏,用户需辨别谁是 AI,配有 huggingface 数据集,创建人类与 AI 区分排行榜。获得应用程序二等奖。
Eyestral:混合专家模型 (CuMo),超越 LLaVA,适用于视频,微调于 VizWiz 数据集,为视觉障碍者提供帮助。获得微调一等奖。
Smol:直接优化 LLM 输出的小模型训练管道,无需数据集,通过 HuggingFace DPOTrainer 生成更多数据。
Remi:微调的购物清单组织器,在聚类项目和组织表格方面优于 GPT-4。
大牛洞见
DEEPING SAYING
Andrej Karpathy 发布 4 小时 GPT-2 复现讲座!
知名 AI 专家 Andrej Karpathy 刚刚在 X 平台上宣布了一场全新的 YouTube 视频讲座,名为 “Let’s reproduce GPT-2 (124M)”。这是一次长达 4 小时的深度教学,从零开始搭建 GPT-2 模型,内容详尽且易于理解。
内容亮点:
从空文件开始:逐步构建 GPT-2(124M)模型,详细讲解每一步骤。
实现神经网络模块:加载 huggingface/GPT-2 的参数,进行前向传播获取 logits。
采样与训练:演示采样初始化、前缀令牌、分词及采样循环,使用数据批次训练模型,介绍交叉熵损失函数和优化循环。
训练速度优化:参数共享、模型初始化、GPU 加速、混合精度、Tensor Cores 等多种方法。
超参数调整:AdamW 优化器、梯度裁剪、学习率调度器、批量大小调度等高级技巧。
模型评估:使用 GPT-2 和 GPT-3 论文中的数据集进行评估,性能接近 GPT-3(124M)。
https://www.youtube.com/watch?v=l8pRSuU81PU https://github.com/karpathy/build-nanogpt
敬请期待明日的最新动态!
本文产品编辑zhumaterialism深耕于AIGC知识领域的应用研究,期待与同行及感兴趣的读者交流思想、分享见解。欢迎添加以便深入探讨,共同推动行业进步。欢迎开发者主动联系提交产品,一起探索AI在各领域的创新应用,携手前行。
9家AI相关公司获融资;3大科技巨头被曝将面临反垄断调查;Vidu重大更新,生成32秒视频,支持音视频合成丨AI情报局
Pika、生数科技、Cohere等获新一轮融资;AI明星创业公司人事剧变;智谱AI全模型矩阵降价丨AI情报局
OpenAI奥特曼投资400多家公司,持股28亿美元;承认抄袭!斯坦福最终回应;黄仁勋称下一波AI浪潮是物理AI丨AI情报局