距离成为有情感的数字人主播,AI刘强东还要迈过这些坎
用数字人做直播常常会提及“120秒战斗”的说法,指的是如果120秒内,用户不觉得这是一个让他感到别扭的数字人,就会跨过“恐怖谷”效应(当人类看到类似人类的物体,特别是机器人时所表现出的积极和消极反应)。
在京东内部看来,AI刘强东做到了这一点。
自近日刘强东变身AI数字人坐镇京东采销直播间后,市场上对数字人直播的讨论也再度热了起来,核心聚焦在直播数字人如何能做到更像真人,有哪些更实际的应用场景和商业化方向等。
目前行业将直播数字人划分为三级。第一级数字人主要扮演辅助角色,填补真人主播忙碌或休息时的直播空缺,力争像真人。此类数字人将商品详情转化为视频内容参与直播,与真人主播形成互补,可利用闲时提升转化率。
第二级数字人可媲美真人,能在重要时刻独立承担直播任务。
第三级数字人更像一个真正的数字分身,而非替代关系,能深入理解并展现个体的思想、文化等深层特质,实现深度交流。
“京东云言犀数字人已经达到第二档,通过图灵测试,并可在短时间内代替真人直播。”京东云言犀负责人对界面新闻表示。
该负责人认为,虽然AI刘强东在形象、声音、动作等方面已尽可能接近本人,但要完全替代尚有难度,特别是宿迁话口音也增加了一些挑战。
从第一级到第二级的过渡,与背后的技术路线选择密切相关。
早在2020年,京东云言犀便开始了数字人相关的尝试,彼时业界普遍遵循分步构建的方式:先建模型,调整动作驱动,添加语音,适配实际动作,最后渲染。
尽管这种方法逻辑清晰,但成本高昂,也无法满足实时性要求,实际效果有限,因为每走错一步,下一步都无法修补。于是团队开始思考转向基于大模型的“端到端”直接渲染技术,即一次性输出渲染完成的视频。该技术理论上能实现更高的效果上限。
这种“端到端”的技术路线有两种应用方法,根据具体场景灵活运用:一是完全跳过中间态建模,无需3D Mesh(即三维网格,计算机图形学中的一个核心概念);二是仅通过一张照片就能构建出人脸的3D Mesh模型,实现表情、唇形的精细控制和纹理渲染。
目前京东云言犀数字人已经能做到大姿态(包括头部、躯体、手部动作)和实时交互,下一步计划实现更为复杂的实时对话交互。而实时的难度非常大,即使是Sora,生成五分钟的视频,也要在英伟达H100芯片上推理一个小时才可以做到。
谈及与Sora的对比,该负责人指出,两者虽思路相似,但在应用场景上存在显著差异。Sora属于通用的视频应用生成,京东云言犀数字人则偏重人物视频生成,并看好后者在商业价值和社会影响力上的潜力。
二者的差别还在于,Sora目前的视频生成暂不支持有声,而数字人则要求极强的音视频同步,并投入情绪,这是一大挑战。
“目前来看,数字人直播带货有很大机会成为一个大爆点,主要因为它在内容层次达到了一个新的水准,大家的接受度和信任度已经过了关键点。”该负责人对界面新闻表示。
除数字人之外,京东还将AI技术用于一系列客服与导购功能,如自动外呼、智能导购、一体化后台咨询服务等,现今重点关注数字人、深度对话导购、文生图及图片生成。
京东云言犀算法总监称,在执行层面,团队已在语音合成(TTS)技术上实现了零样本应用,无需对模型进行专门训练,即可直接合成特定音色和说话风格。
除了进一步提升数字人在直播间、短视频中的表现力,京东内部希望能以更低成本、更低门槛推进数字人,尽量少让真人拍摄录制。“但从具体技术上说,肯定是大冒险。”京东云言犀算法总监称。
商业模式方面,直播、短视频、客服、线下交互大屏等,都是数字人的应用场景,可选SaaS(一种基于互联网提供软件应用程序的模式)或KA(重点客户)定制。前者又分多种模式,比如按流量或是按标准产品,亦或是产品+服务,后者对效果和各方面要求会更高。此外还有按产品实际销售数量计算广告费用的CPS抽佣模式。
在数字人使用形式上,主要分两种:云端使用和用户本地部署。团队介绍,言犀客户采用前者居多,相较预先做好的demo,言犀数字人直播是通过训练生成式网络模型实时生成,可支持上千个直播间在云端同时播,开播成本据称降低30%。
“直播业态某种意义上是以个人为背景的一种表演和交互,而且能实时互动。”京东云言犀负责人称。
如果能完美实现实时互动,当然是理想状态,但目前市场对于数字人最大的诟病之一就是缺少情感。有人好奇未来是否有可能诞生一个类似董宇辉的超级数字人主播?
在京东云言犀负责人看来,技术上完全有可能,但伦理和感情上不一定能成立,“大家喜欢董宇辉,肯定是因为这个人作为一个实在人的特质,但不知道未来会如何解决伦理问题,预测未来是件很难的事。”