大模型迎落地元年 澜舟科技周明提出成功“九字诀”
21世纪经济报道记者白杨 北京报道
在AI领域,周明是公认的“大牛”。从1999年加入微软亚洲研究院,到2020年离开,他在微软工作了21年。期间,他带领团队进行了微软输入法、必应词典、中英翻译等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。
所以在创业前,周明身上已经冠有诸多荣誉,比如他是微软亚洲研究院副院长,是国际计算语言学协会 (ACL)主席,是中国计算机学会理事,是中文信息技术专委会主任等等。而现在,他最重要的身份是澜舟科技创始人兼CEO。
2020年底,周明隐约感知到大模型的发展势头,便毅然决然地离开了微软,并于2021年6月创办了澜舟科技。仅过了一年半,ChatGPT就横空出世,大模型赛道成为风口,周明也成为了中国大模型的先行者。
去年3月,澜舟科技发布了孟子大模型GPT V1(MChat);今年1月,孟子大模型GPT V2(含孟子大模型-标准、孟子大模型-轻量、孟子大模型-金融、孟子大模型-编码)对公众开放。
3月18日,澜舟科技在北京召开了大模型技术和产品发布会。会上,周明表示,以大模型为代表的人工智能正在重塑人类的未来,而2024年将是大模型落地元年。
之所以做出这样的判断,周明称,“一方面是过去一年,大模型发展得非常好,已经具备了落地的能力,另一方面,是企业的降本增效,做了很多数据也积攒了很多业务落地场景”。
大模型落地“九字法则”
在澜舟科技成立之初,周明就明确了公司的业务方向——以ToB为主,ToC为辅。他认为,大模型在中国的最大应用前景是在企业的服务机会上,而不是写诗作词。“我们应该利用国家发展大势,通过落地创造价值,拉动创新,而不是单纯地去追赶美国,OpenAI在干什么我们就去干什么。”
不过周明也表示,虽然今年是大模型落地元年,但并不意味着遍地是黄金,因为还有很多环节没有跑通,很多地方没有开拓出来。
最近几天,周明一直在思考,大模型落地的成功秘诀是什么。他想到了雷军提出的互联网创业七字法则——专注、极致、口碑、快。他觉得,这七字法则也适用于大模型,比如企业一定要专注,要想清楚做什么和不做什么;企业也要做到快,快速研发、快速实施和快速部署。
在此基础上,周明认为还需要加上两个字——“成本”,这样才是大模型落地的九字法则。“大模型创业不能不在意成本,一定要有造血的能力。无论是在研发、商业活动,还是交付的时候,每一个环节都要注重成本问题。”周明说道。
实际上,大模型的训练和部署成本问题也是阻碍很多企业应用大模型的重要原因。动辄上千万的模型费用,企业很难接受,但对大模型厂商来说,训练成本如果降不下来,也不可能把部署成本降下来。
针对成本问题,澜舟科技对102家企业进行调研发现,虽然大模型是越大越好,但是,企业对于大模型的需求主要就集中在语言理解能力上,包括意图理解、多轮对话、文本生成、机器翻译等。
所以在ToB场景,只要能把这几个能力做到极致,企业就会买单。“那多大的模型可以满足这些能力需求?我们发现百亿到千亿之间就足够,再大一点确实效果会更好,但ROI就没有那么明显了。”周明说。
因此,澜舟科技目前在做的,就是专注把参数量为7B、13B、40B最高到100B的这些ToB场景使用最多的LLM模型做到最佳并大幅度提升大模型的推理效率。
“一横N纵”体系
发布会上,澜舟科技也公布了自己的“一横N纵”体系。其中,“一横”是指孟子大模型技术,“N纵”则是基于孟子大模型推出的ToB技术和产品。
在大模型技术方面,周明表示,近期,澜舟科技已经完成了Mengzi3-13B的大模型训练,并且3月30日,Mengzi3-13B的模型将在GitHub、HuggingFace、魔搭和始智AI社区开源。
值得一提的是,澜舟科技训练孟子V3背后,离不开总规模为3T tokens的Mengzi-3数据集,该数据集包含了网页、代码、书籍、论文等高质量数据来源,相当于上一代数据集的2.7倍,且整体数据质量也提高了很多。
此外,澜舟科技合伙人、首席产品官李京梅对外公布了澜舟的一系列应用能力型产品,包括AI文档理解、文档问答、文档辅助写作、机器翻译、澜舟智会、AI搜索。
谈及大模型落地,周明一直强调,创新和落地是相辅相成的,不要一味地创新或者一味地落地,而是要把这两者联系在一起,让它快速迭代。
同时,周明还表示,大模型落地需要生态来助力,“一个团队或一个公司无论多强大,也不可能把所有事情做好,需要跟其他公司多多合作,共同营造一个良好的生态环境,在这样的环境下,大家才能都得到发展的机会。”