MiniMax副总裁刘华:标准化大模型是未来,技术进化优于定制化 | 最前线
文 | 田哲
编辑 | 苏建勋
随着人工智能进入大模型时代,全球科技竞争正逐步聚焦于中美两国。高昂的算力投入和海量的数据需求,决定了大模型的研发门槛极高,少数领先国家的大模型厂商正在这场技术竞赛中争夺前沿优势。
MiniMax是较早出海的国内大模型厂商之一,据报道,MiniMax今年的海外收入将超过7000万美元。
目前,MiniMax已在海外市场推出HailuoAI、Talkie两大 C 端产品,分别主打AI视频/音频生成和 AI 内容社区。36氪获悉,MiniMax的海外主要收入来源,除出海C端AI应用Talkie目前占比较大,Hailuo AI订阅服务和B端API服务也有所提升。
近日,腾讯云北区云原生总经理田丰、MiniMax 副总裁刘华,与36氪等媒体展开了一次对话,从全球竞争格局、技术路径到商业化方向,共同探讨了大模型技术的发展趋势及两者间的协作价值。
刘华介绍,Talkie除了已有的付费订阅制之外,广告业务也是商业化收入来源之一。此外,MiniMax在海外市场暂时不会开发定制化模型项目,目前仍以标准化API 接口服务B端客户。
原因在于,创业公司应将主要资源投入到核心技术的研发与迭代上,而不是耗费大量精力在满足个性化需求的定制化项目中。"如果一款大模型需要大量定制化开发才能满足客户需求,说明这代模型尚不够成熟,与其投入时间与成本进行定制,不如加速模型迭代。"刘华表示。
他透露,MiniMax已确定未来的研发路线,主要聚焦于降低模型错误率、实现无限长的输入和输出、多模态路线发展。
首先,模型错误率方面,他认为上一代的GPT系列模型错误率约30%,没有引起用户较大重视的原因在于,其较多被用于没有标准答案的文创领域,如果将大模型用于生产、研发、科研设计等场景,最好把错误率降低至个位数。而MiniMax理想中的错误率是2%-3%。
其次,随着大模型任务逐步从文本扩展到语音和视频,所需的Token 量也在迅猛增加,因此新技术落地的关键在于,提高大模型处理大规模输入和输出的能力。
目前,MiniMax最新研发的Abab 7系列模型基于 MoE和Linear Attention(线性注意力)机制的新架构,可显著降低长文本的计算复杂度。
在刘华看来,美国的大模型行业仍保持一定程度的领先。据36氪观察,OpenAI、Anthropic、XAI等行业头部厂商占据了强大的资源和技术优势,譬如OpenAI的公司规模接近2000人,年度算力成本可能达到百亿美元。
不过,中国大模型厂商追赶的速度非常快,尤其在语音和视频等领域,中国的语音 API 服务已接近 GPT-4o 的水平。如果国内知名科技公司也进入这一赛道,也必然会凭借其资源优势占据重要位置。
刘华认为,中国的 AI创业公司仍有着广阔的发展空间。正如MiniMax得到了腾讯云这类云厂商支持,同时通过成功的商业化实现了资金循环。
此外,刘华认为如果需要更好服务国内外用户,必须坚持自研,打造真正原生性的解决方案,从而拥有具备独立竞争力的大模型。
谈及与MiniMax的合作。腾讯云北区云原生总经理田丰介绍,腾讯云为MiniMax 提供了一系列集计算、存储、网络为一体的高性能智能产品,让 MiniMax释放更多的精力聚焦在模型本身的训练和工程化上。其中,对象存储产品则提供了元数据加速方案来保障性能,以及多种精细化管理措施进行数据治理,降本增效。数据湖产品则专门针对语料数据预处理进行了专项优化,来提升任务处理性能,帮助MiniMax节约算力 30%以上,性能提升 35.5%以上。
据悉,腾讯云高性能计算集群通过一系统化的运维机制,可做到网络故障一分钟内发现问题,三分钟内定位问题,最快五分钟恢复系统。其千卡集群的日故障数已刷新至 0.16,是行业平均水平的三分之一。
同时,腾讯云星脉网络可支持大模型训练,实现大模型训练过程中,网络通信占比(通信时间占总体时间比例)低至6%,整体训练效率提升了 20% 以上。
正如美国大模型厂商已形成头部效应,这一现象也将在中国市场出现。刘华认为,未来只有少数企业研发基础大模型,大多数企业将逐渐转向 AI 应用层面的研发。
至于MiniMax,将依然坚持投入核心技术研发,用好的技术驱动好的产品,再让好的产品带来好的服务体验和口碑,反哺技术。