商汤科技数字文娱事业部总经理栾青:未来三到五年,更多大...

9月6日上午,在界面新闻举办的2024 REAL科技大会上, 商汤数字文娱事业部总经理栾青在演讲中介绍,商汤为AI大模型全方位布局,覆盖算力基础层、AI模型层与上层应用。

目前商汤投建的国产化人工智能算力集群已拥有GPU是5.4万块,总运营算力总运营峰值是2万P,公司在上海临港正在投建全国最大规模人工智能数据中心,全国算力节点遍及上海、广州、重庆、深圳、福州等地。

今年7月,商汤发布“日日新5o”模型,交互体验对标GPT-4o,实现全新AI交互模式。该模型能够整合跨模态信息,通过基于声音、文本、图像和视频等多种形式,呈现实时的流式多模态交互。

在视频生成领域,商汤在7月发布首个“可控”人物视频生成大模型Vimi,该模型主要面向C端用户,支持聊天、唱歌、舞动等多种娱乐互动场景。Vimi可生成长达1分钟的单镜头人物类视频,画面效果不会随着时间的变化而劣化或失真,通过一张任意风格的照片就能生成和目标动作一致的人物类视频,通过已有人物视频、动画、声音、文字等多种元素进行驱动。

栾青提出,2024年将成为AI视频的应用元年,未来三到五年,更多应用场景将随着模型能力提升和推理成本下降逐步解锁。

其次,AI视频生成将重塑传统视频制作工作,整合音视频创作的流程方法变为一个整体,降低AI视频内容的制作门槛,并以全新视频交互界面展现。

过去十几年,视频产业一直不断地发展,制作一个视频从几百人的团队,精简至几十个人的网剧团队,再到个人也可以创作短视频。技术推动下,视频团队和制作时间不断精简,而视频数量却在指数级的爆增,人类的消费习惯从曾经的看文案、图片、新闻,变成了看视频。

栾青认为,当视频的生成速度更快,甚至达到实时生成视频,AI能够带来新的交互体验,例如通过算法自动地控制人物动作,实时可交互的视频。

当前,AI视频生成有两大方向,一是用文字提示生成视频;另一个则是用其他信号,比如可控的逻辑性信号。例如动画设计师会捕捉人体和自然信号,再让人工智能学习,最终完成。这样生成的人物不仅合理,还能随着可控的信号进行变化。

栾青也提到,AI视频大模型在人物类视频生成上存在三大挑战:人物动作、表情难以精确控制,出效果仅靠大量“抽卡” ;人物身份稳定性不高,“常常换长相” ;仅支持稳定生成3-4秒时长,难以满足需求。因此,日常视频创作尚未达到可用的阶段。

“当前人们每天看到的视频80%都是人物为主题的视频。”

栾青介绍,商汤正在尝试用APP帮助用户来生成视频写真大片,利用AI算法控制运镜、光影变化、人物背景,让内容变得更真实和自然。例如用户输入一张照片,大模型产品也可以用不同的动画方式去制作内容,让内容形式更为丰富。

栾青认为,随着AGI技术在视频领域的深入,除了生产效率的变化,更多的是全新体验。大模型的能力可以让普通人更好的进行创作。