京东技术负责人:大模型会越做越小,甚至可细化到场景
“通用大模型靠算力堆起来,而企业大模型要靠业务跑出来。”
7月30日,在上海举行的京东云峰会上,京东集团技术委员会主席、京东云事业部总裁曹鹏发表上述观点。按照他的理解,对大模型而言,数据是养料,场景是练兵场。
过去一年大模型持续狂热,行业经历了“千模大战”。据中国信通院统计,目前全球的基础大模型有1000多个,中国大模型的数量占全球的35%。
虽然基础模型性能在不断提升,但在个人用户端,大模型尚未出现真正意义上的超级应用,反而是在很多企业端场景中,已经基于应用逐步铺开。
峰会现场,京东云展示了京东言犀大模型落地行业的最新实践,并发布京东云企业大模型服务、言犀智能体平台、智能编程助手JoyCoder、言犀数字人3.0等八项产品。
据京东提供的数据,截至目前,京东大模型落地超百个场景,覆盖医疗健康、电商直播、物流、金融等不同行业领域,已有众多包括京东自有配送员、商家、医生、采销运营及研发人员得到了大模型应用的支持。
比如服务于医疗场景的“京医千询”,据京东健康智能算法部负责人介绍,目前内部做了四个不同体量的模型,一个是2b左右的微小模型,在窄域提供某个单一服务,团队设想其“未来甚至可以放到手机上”使用;二是以14b、22b为核心的中型体量模型,完成一些医疗咨询和服务支持类工作;最后是以80b为核心,专门服务复杂医疗决策和推理能力的大模型。
上述模型支持私有化部署,甚至是一体化部署,这与行业特性有关,“医疗行业很难接受完全纯云端的模式,很少有医院能接受这种突破。”上述负责人说。
据其介绍,京医千询在实际医院落地场景中,会更多关注合规情况下独立完成患者服务,涵盖分诊、预问诊、挂号、预约、诊中的陪诊、诊后健康管理等。
“GPT出来的第一天,所有人想到的都是这一代自然的对话能力和所谓的拟人化的能力。从这个角度来看,它能否更好地成为医生助手就比成为一个医生的诊断工具更具有落地价值。”上述负责人强调。
而在美妆场景上,不同于以往纯直播,京东内部目前在尝试将数字人试妆和数字人主播结合;鞋服场景方面,将呈现前面是数字人直播、后面是主播换装的场景,基于特定品类属性的直播风格都会迁移到数字人上。
谈及大模型的发展趋势,多位京东技术负责人均表示,大模型会越做越小,垂域大模型是比较确定的方向,甚至可以更细化到场景大模型。其内在逻辑是因为大模型要向场景、行业做适配,所以不能太大。
京东探索研究院院长、京东科技人工智能业务负责人何晓冬判断,由于数据和算力限制,如果简单地提升模型规模,可能很快达到发展天花板,导致大模型所产生的经济效益不足以支撑本身的成本,从而难以持续。
“大模型每年以10倍的速度增长,参数从百亿、千亿到万亿,但商业化落地,目前看是落后的,从中长期来看终究会成为一个问题。”他还指出,目前很多模型的幻觉率还是很高,导致不能为后续的产业应用提供坚实的保障。
据何晓冬介绍,京东在模型自进化方面从初始策略模型出发,首先构建出初始的偏好数据集,然后利用预先训练好的奖励模型为每个回答打分,并根据得分的高低构建出新的偏好数据,这些新的偏好数据将大大促进模型迭代更新。
在模型推理方面,目前大语言模型推理成本水涨船高,为此,京东通过端到端、低比特、高精度量化技术,提升模型构建时效,在不影响模型输出准确性和参数量的情况下,降低模型体积,提升推理性能。何晓冬称,目前其技术方案使得模型显存节约70%。
具体到企业落地大模型上,曹鹏认为有三点非常关键。首先是简单,场景的多样性和碎片化支撑不了高昂的开发成本,必然要将大模型的使用门槛降到最低才会覆盖更多应用。其次是开放,基于开放的Agent生态、大模型生态、云原生生态,将选择权交给客户。第三是安全,提供数据安全与隐私保护、AIGC内容合规、语料数据安全管理,让企业大模型服务可信可靠。