☰

对话MiniMax创始人闫俊杰：打不赢，就应该被淘汰

出品｜本站科技《态度AGI》对话栏目

作者｜丁广胜宗淑贤

在MiniMax成立以来的第一场媒体见面会，创始人闫俊杰分享了基于MOE（混合专家模型）+ Linear Attention（线性注意力）的新一代模型技术的应用，并展示了MiniMax最新音乐模型、视频模型的研发成果。

最为引人关注的是，MiniMax发布了一支名为《魔法硬币》的2分钟视频。其所有场景画面全部由大模型生成，没有进行任何人类加工，效果惊艳。

本片所有场景均由Minimax大模型生成，未经任何修改（来源：逆向思维）

“科学技术是第一生产力，这是MiniMax坚持技术创新的最底层原因。”闫俊杰说，MiniMax将持续通过技术突破推动AI加速发展，拓展人类智慧的边界，真正实现Intelligence with Everyone。

据介绍，作为中国首个研发MoE大语言模型并成功上线的AI企业，MiniMax持续在模型算法上做创新，并最新推出基于MOE+ Linear Attention的新一代模型技术。通过此新型线性模型架构，MiniMax大模型能在单位时间内更加高效地训练海量数据，极大地提升了模型的实用性和响应速度。

在与GPT-4o同一代模型能力对比上，新一代模型处理10万token时效率可提升2-3倍，并且随着长度越长，提升越明显。相比于通用Transformer架构，新架构的原生线性计算复杂度大幅减少了大模型的训练和推理成本。在128K的序列长度下，新架构成本减少90%以上。

视频模型方面，MiniMax宣布推出视频模型。MiniMax视频模型具有压缩率高、文本响应好和风格多样等优点，可生成原生高分辨率、高帧率视频，模型能力首屈一指。

音乐模型方面，MiniMax第一款音乐模型可以合成纯音乐为制作人快速构建歌曲的基本结构，由歌手自由演绎主唱或和声部分。没有伴奏，音乐模型也可以是实力歌手。MiniMax语音模型同样迎来更新，已实现对粤语、日语、韩语、西班牙语等多语种支持的升级。

目前，MiniMax音乐生成模型与视频生成模型已经在开放平台和海螺AI网页版上线。此外，abab 7系列模型将于未来数周内发布。

“很多时候不是我们的技术在帮助用户，更多的是用户在帮助我们。”闫俊杰认为，有了多元化用户的参与和反馈，才有更好的智能。

据披露，MiniMax每日与全球用户进行超30亿次交互，处理超3万亿文本token、2000万张图片和7万小时语音，大模型日处理交互量排名国内AI公司首位。

面对市场压力，闫俊杰坦言：“如果我们在竞争中打不赢，就应该被淘汰，没有其他选择。”他认为，MiniMax能做的就是将我们觉得有可能变强的事无限地放大，包括两点：

一是技术如何提升，二是如何跟用户做更好的共创。

以下为闫俊杰与本站科技等媒体对话实录（经调整）：

问：您眼中的AGI是什么样的？

闫俊杰：我们认为的AGI可能不是一个很高大上的东西。当大家觉得不是AI的时候，而是变成大家每天都在用的一部分，我觉得AGI就实现了。

问：MiniMax为什么要做视频生成？

闫俊杰：本质原因是我们每天看的大部分内容，都不是文字，都是一些动态的东西。在人类社会，大模型的核心意义是做更好的信息处理。大部分的信息体现在多模态的内容里面，而不系体现在文字上，只是文字很多时候是里面最精华的那么一小部分。

为了能够有非常高的用户覆盖度和非常高的使用深度，能够输出动态的内容是唯一的办法，这是一个非常核心的判断。只是在之前的时候我们先做出来文字，又做出来的声音，其实很早做出来了图片，只是现在技术变得更强，把视频也做出来。这个路线是一以贯之的，一定要能够做多模态。

这里面的挑战在于，之前基于文本建的这套底层的基础设施怎么来处理数据，怎么来清洗数据，怎么来标注，对视频上都不太适用。意味着基础设施也需要升级。再次是耐心，做文字有很多开源的东西，如果基于开源来做自己研发会更快，如果做视频开源的东西没那么多，做出来其实很多东西越来越需要重新来做，需要付出的耐心也更大。

问：数据来源在哪？

闫俊杰：中国有比较好的措施。国家层面有很多政策出来，以政府组织的形式，有很多非常高质量的数据开放给技术公司使用。这些数据完全没有版权的问题，对创业公司帮助非常大。

我们自己也会采购第三方的数据。我们尽可能地用符合版权的数据，我们尽可能往这个方向努力。

问：视频生成，怎么考虑商业变现？

闫俊杰：商业化基本分两个形式，一个是我们的开放平台，现在已经有30000家企业客户和开发者，这是To B部分。第二，产品广告机制.

我觉得目前阶段，最重要的东西还不是商业化，是真正地让技术到达广泛可用的程度。

问：如何看待陪伴类AI的前景？

闫俊杰：星野这样的产品底层设计其实不是陪伴用户聊天，底层设计实际上是一个内容社区。一些用户可以根据创造的世界观进行互动，很类似像小说的交互体验，核心是内容社区，核心不是陪一个人来聊天。我们认为内容社区产品的特点是，数据主要是用户的创作。

问：最近快手有推出飞船。国内还比较卷，怎么把自身的壁垒提升？

闫俊杰：这个事除了快手有，字节也有。像电动车、手机、移动互联网，这些行业都是有好几家公司进行了长期非常激烈的竞争，最终使得中国的产品全球都领先了。

我们作为一家小的创业公司来说，如果在竞争中打不赢，那我们就应该被淘汰，其实也没有其他的选择。这在一定程度上让我们开始意识到，当你有很多大厂的竞争对手，可以让我们很快地看清一些非常底层的东西。

我们能做的就是把我们觉得有可能变强的事无限地放大，两点：一是技术如何提升，二是如何跟用户做更好的共创。

问：目前智能体或虚拟的角色很难去对用户进行深度的聊天和陪伴，会导致用户的流失，如何应对这样的问题？

闫俊杰：本质上就是模型不够好，在当前的模型没有很长的记忆，理解不了特别复杂的指令就会这样。这也是我们为什么坚持技术创新，让我们的模型的理解能力变得更强，能够处理无限长的输入跟输出，里面有更多的模态，这里面也包括更多的创作者的激励。

这件事需要一步一步演化，不是一蹴而就。我们看一下10年前的B站跟现在的B站显然不太一样。

问：最近朱啸虎有一个观点，大模型六小龙最佳的归宿可能是被大厂并购。

闫俊杰：这个事可以当成是对一个行业的考验，如果能够通过就能够出来，如果通不过确实应该关掉，这个事就应该客观地面对，这肯定不能怪用户，也不能怪生态，只能怪自己做得不够好，至少我们目前是在努力的，这是我唯一可以做的一件事。

问：您怎么理解现在行业技术进步的速度，我们可以从什么角度去衡量？

闫俊杰：我自己还是很坚定的，实际上两个月前我就知道今天可以更新视频模型，实验结果已经能够预测了。

对语言模型也是一样的，一个核心的标志可能不是说GPT4，或者是GPT-4o，或者GPT-4o mini这种东西。真正的变革是什么时间点有一个模型可以把错误率降低到个位数，这会是一个非常本质的变化。

我的判断是，如果Scaling law是对的话，（更好的）模型一定会出现，标志就是错误率走向个位数，就只是不知道什么原因还没有人把它真正地发布出来。

问：现在商业化整体的表现如何？

闫俊杰：我们不是上市公司，没法披露我们具体的经营数据。

可以谈谈变化，我们非常惊人地发现在有了大模型价格战之后，有很多非常传统的企业开始非常愿意使用大模型。国内大模型的使用量确实在显著地增长，并且中国的模型在海外确实越来越具有竞争力，我觉得是两个积极的变化。

关于《态度AGI》

本站科技重磅推出系列对话栏目《态度AGI》。过去三年，AI变革风起云涌，全球科技秩序正在重构，通往AGI的道路或许正在悄然临近。本栏目以AGI为题，将对话100位AI专家、企业家、投资人，试图拨开云雾，与大家一道见证AGI时代的到来。第十四期对话MiniMax创始人闫俊杰。

往期回顾：

《态度AGI》第一期：对话李开复：大模型创业狂奔一年中美差距缩小我十年不套现

《态度AGI》第二期：对话王小川：我们不跟进大模型价格战

《态度AGI》第三期：对话戴文渊：大模型价格战不解决核心问题

《态度AGI》第四期：智源研究院院长王仲远：GPT4不是国内大模型的尽头

《态度AGI》第五期：对话朱啸虎：5年后将没有独立的大模型公司存在，因为没有商业模式

《态度AGI》第六期：对话梅花创投吴世春：“中国大模型五虎”想要跑出来非常难

《态度AGI》第七期：对话跃然创新CEO李勇：做大模型应用如何和巨头错位竞争

《态度AGI》第八期：对话智谱AI CEO张鹏：视频生成是AGI必经之路，超级App将在“不知不觉”中到来

《态度AGI》第九期：对话科大讯飞副总裁、研究院院长刘聪：中国大模型已从追赶对标走向自主原创

《态度AGI》第十期：对话360周鸿祎：魔法对付魔法，大模型安全问题得靠大模型

《态度AGI》第十一期：对话彩云科技CEO袁行远：超越ChatGPT，需要打开“黑盒”

《态度AGI》第十二期：对话傅盛：不看好双足机器人商业化，三五年都没戏

《态度AGI》第十三期：对话宇树创始人兼CEO王兴兴：通用机器人的iPhone时刻还需要3-4年

对话MiniMax创始人闫俊杰：打不赢，就应该被淘汰

相关资讯