面壁智能发布新一代端侧大模型

9月5日,AI初创企业北京面壁智能科技有限责任公司(简称面壁智能)推出新一代端侧大模型——MiniCPM 3.0。

据了解,此次发布的MiniCPM 3.0是面壁智能“小钢炮”系列的最新产品。面壁智能CTO曾国洋在接受澎湃科技(www.thepaper.cn)采访时介绍,MiniCPM3.0在上下文处理长度、Function Calling等方面进行了全面升级。在性能上超越了如阿里的Qwen2-7B和智谱的GLM4-9B等知名模型,在包括自然语言理解、知识、代码、数学等多项能力上超越OpenAI的 GPT-3.5。

曾国洋介绍,在长文本技术上通过引入LLMxMapReduce长文本分帧处理技术,通过将长文本切分片段并行处理,再汇总答案,MiniCPM 3.0实现了无限长度的文本处理能力,使上下文长度从32K、128K拓展至512K甚至更高。

曾国洋表示,通过该项技术,可以打破大模型的记忆限制,使用户可以让模型一次性处理整本书籍、海量学术论文或是跨年聊天记录,提升端侧AI的实际应用能力。

据介绍,MiniCPM 3.0的Function Calling功能也得到了增强,能够调用端上的各种工具和函数,扩展了模型的应用边界,并配合RAG外挂知识库技术使端侧模型在实际应用中有多功能性。

面壁智能CEO李大海称,正积极推动端侧大模型商业落地,明年会有配备端侧模型的终端设备开始量产,包括手机和PC等设备。据了解,面壁智能已与多家企业展开合作,推动端侧大模型技术落地应用。在8月21日的世界机器人大会上,面壁智能与加速进化机器人合作,将MiniCPM模型植入人形机器人,作为机器人的“大脑”,接收人的指令并执行动作。面壁智能方认为,端侧模型进入机器人的挑战要高于手机和 PC,但却是面向最终极的应用。

面壁智能成立于2022年8月,专注大模型技术创新与应用转化。其创始团队主要来自于清华大学自然语言处理实验室(THUNLP),公司CEO李大海兼任知乎CTO(首席技术官);另一位公司联合创始人刘知远,则是清华大学计算机系副教授、博士生导师,研究方向为计算机自然语言处理。

今年4月,该公司完成新一轮数亿元融资,由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投。