中信证券:Kimi长文本模型对行业意味着什么?
(原标题:前瞻|Kimi长文本模型对行业意味着什么?)
文|陈俊云 贾凯方 刘锐 高飞翔
近期月之暗面旗下对话类模型Kimi迎来重大升级,支持200万字超长文本输入和更复杂指令,引发市场关注。此次升级刷新了业界文本输入长度纪录,充分展现了Kimi在工程优化和算法设计方面的突出实力。长文本处理能力的突破,为Kimi在多模态融合、Agent任务处理等方面奠定了坚实基础。我们判断,超长文本支持已成为大模型多模态升级的关键前提。在Kimi示范效应下,越来越多厂商有望效仿其技术路线,加大研发投入,推动长文本处理在今年内成为行业标配。随着多模态理解能力的提升,AI有望在UGC内容understanding、复杂任务处理等场景实现新突破,为产业智能化升级注入新动力。我们看好Kimi引领的这轮大模型技术革新浪潮,同时随着对超长文本、多模态数据的支持需求提升,我们预计软硬件基础设施将迎来新一轮升级,以满足海量非结构化数据的存储和计算需求。因此,我们持续看好AI算力赛道的投资机会,特别是商业应用加速落地背景下,推理侧算力有望实现快速增长。
▍事件背景:
北京时间3月18日,月之暗面旗下对话类模型Kimi迎来重大升级,支持200万字的长文本处理和更复杂指令,引发市场强烈反响。Kimi Chat作为专注长文本处理的对话助手,凭借20万汉字的超长上下文和优秀性能,自去年10月发布以来持续受到市场青睐。今年2月的功能升级进一步增强了网站与多问题搜索能力,带来更佳用户体验。Similarweb数据显示,Kimi Chat网页端访问量近期屡创新高,峰值达34.6万人次。据AI产品榜统计,2月份Kimi Chat国内访问量排名第三,日活跃用户同比翻倍,全球增速位列第一。在本次3月份的长文本版本更新后,数据显示最新周访问量创新高,3月18日-3月24日访问量243万,环比增加45%。
▍Kimi主要突破:支持长文本输入,更强的工程与成本控制能力。
大模型的输入文本长度是一个重要的工程挑战。随着输入序列长度的增加,模型推理过程中注意力层的计算时间呈指数级增长。以Llama-7b模型为例,处理100万字的输入需要数分钟之久。因此,更长的上下文窗口不仅意味着模型具备更强大的基础能力,还需要在工程实现上进行特殊优化,并将成本控制在合理水平。横向比较当前市场上的大语言模型,GPT-4支持3.2万字Tokens输入,Gemini公开版本支持13万字,而Kimi的200万字上下文长度无疑刷新了现有的最高纪录。为实现更优的长文本无损压缩性能,月之暗面在发布会上透露,其研发团队从模型预训练、对齐到推理的各个环节进行了原生级的重新设计和开发,摒弃了“滑动窗口”和“降采样”等折中方案,攻克了诸多底层技术难题,才取得了这一突破性进展。我们认为,Kimi展现的超长文本处理能力印证了其在工程和算法优化方面过硬实力。
▍市场影响判断:多模态能力升级的必然前提,将引起更多厂商效仿。
Kimi将输入文本长度拓展至200万字,绝非为刷新纪录而作出的简单改动。长文本处理能力直接决定了模型的多模态融合水平,是构建能处理复杂任务的AI Agent的必要基础。相较于纯语言模态,图像、视频等非结构化数据蕴含的信息更为丰富,需要更长的上下文才能有效表征和理解。因此,超长文本输入已成为支持多模态处理的基本前提。从技术实现角度看,长文本处理主要涉及工程优化和成本控制两大挑战。我们预计,在Kimi的示范效应下,越来越多厂商将效仿其超长文本处理的思路,加大在算法架构、数据压缩、推理加速等方面的研发投入。随着业界的技术积累和创新突破,长文本支持有望在今年内成为大模型的标准配置。
▍风险因素:
AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。
▍投资策略:
本次月之暗面更新的Kimi长文本版本取得了实质性技术突破,将输入文本长度的上限提升至200万字,刷新了当前业界的最高纪录。我们认为,Kimi的这一进展将引领大模型厂商掀起新一轮技术革新浪潮。长文本输入能力是实现多模态处理的关键前提,而多模态内容,尤其是视频和图像的UGC(用户生成内容),仍然是AI应用层面的核心增长点。从技术实现角度看,长文本处理主要受限于工程优化和成本控制能力。随着业界对超长文本的支持需求不断提升,我们预计硬件基础设施也将随之升级,以满足海量文本数据的存储和计算要求。因此,我们持续看好AI算力层面的投资机会,特别是在商业应用日趋成熟的背景下,推理侧算力有望迎来更大的增长空间。