声网赵斌:生成式AI驱动IT行业四大变革 AI+RTE成下个十年重要主题

本报记者 吴清 北京报道

“生成式AI正在驱动IT行业发生大变革,这一趋势主要体现在四个层面:终端、软件、云和人机界面。”10月25日,在声网和RTE(实时互动)开发者社区联合主办的RTE2024第十届实时互联网大会上,声网创始人、CEO赵斌对《中国经营报》记者如是表示。

据悉,本届大会有覆盖AI、出海、社交泛娱乐、IoT、Voice AI、空间计算等20+行业及技术分论坛。值得一提的是,今年是声网成立十周年,也是RTE大会的第十届。

十年间,实时互动从“理念”发展成一个“行业”。实时互动技术不仅助力社交泛娱乐、在线教育、IoT、企业服务等几十个行业、数百个场景实现了跨越式成长,也支撑了诸多互联网风口的进化,从过去的电商直播、互联网医疗、秀场直播到如今的大模型,都离不开RTE能力的参与和赋能。

在生成式AI迅速迭代进化的同时,更多的企业开始关心AI如何更好地实现商业化落地的问题,而目前AI的巨额投入与实际产出间存在巨额差距,所导致的6000亿美元难题首当其冲。

生成式AI驱动IT行业变革 AI与RTE结合带来场景创新

2022年年末,ChatGPT横空出世,生成式AI迅速引爆,2023年被称为生成式AI的突破之年,逐渐对各行业产生潜在深远的影响。

在赵斌看来,生成式AI驱动IT行业发生大变革,主要体现在四个层面:终端、软件、云和人机界面。具体来说,在终端上,大模型能力将驱动PC和Phone往AI PC和AI Phone的方向进化。在软件上,所有的软件都可以、也将会通过大模型重新实现,并从Software with AI发展至AI Native Software。在云的层面,所有云都需要具备对大模型训练和推理的能力,AI Native Cloud将成为主流。此外,人机界面的主流交互方式也将从键盘、鼠标、触屏变成自然语言对话界面(LUI)。

随着生成式AI成为下个时代IT行业进化的主题,RTE也成为了多模态应用和基础设施中一个关键部分。今年10月初,声网的兄弟公司Agora作为语音API合作者,就出现在了OpenAI发布的Realtime API公开测试版中。

在此次大会中,赵斌表示,声网与MiniMax正在打磨中国第一Realtime API。赵斌也展示了声网基于MiniMax Realtime API打造的人工智能体。在演示视频中,人与智能体轻松流畅地进行实时语音对话。当人类打断智能体并提出新的疑问时,智能体也能够灵敏地做出反应。

在生成式AI的大潮下,RTE将会提供更为广阔的空间。赵斌也在分享中宣布,声网正式发布了RTE+AI能力全景图。在全景图中,声网从实时AI基础设施、RTE+AI生态能力、声网AI Agent、实时多模态对话式AI解决方案、RTE+AI应用场景五个维度,呈现了当下RTE与AI相结合的技术能力与应用方案。

业内人士认为,生成式AI与RTE结合带来的场景创新,将成为下一个十年的重要主题。在全新的生成式AI时代,RTE与AI也将迎来更多可能性。

AI是云的第三次浪潮 分布式端边云结合的AI系统成基础设施

随着AI技术的发展,AI时代的大模型应用开发、AI云以及GPU等基础设施建设逐渐成为热门话题,也成为了支撑整个行业发展、催生新应用诞生、新商业价值实现的底座。

针对AI应用,Lepton AI创始人兼CEO贾扬清对记者表示,今天是最容易建设AI应用的时代,越是简洁的AI模型思路越容易产生优秀的效果。AI能力加持后,应用本身的开发范式也在从数据、模型、应用构建三个维度发生变化,未来的应用开发将从“以流程为中心” 转化为“以模型为中心”。

那在已经到来的AI时代,现代化基础设施应该是什么样?声网首席科学家、CTO钟声提到,大量用户设备往往会先接入边缘节点,并在需要的时候再接入云端,数据将在端设备、边缘节点和云之间往返传递。AI时代的数据中心会包含以大量异构算力组成的超级计算集群(SuperScaler)。但是,停留在仅依赖超级计算集群的系统是远远不够的,万亿参数、多模态引入所造成的高昂计算成本、缺乏机制约束的数据隐私保护、几秒钟的延时都将阻碍大模型的普惠,大大地限制其在很多场景下的应用。

钟声认为,分布式端边云结合的AI系统将有效解决这些痛点。这个系统将把计算和传输在各节点做合理的配置,系统会智能地以自适应的方式把任务编排到端与边上执行,有效地降低了成本,同时提供了更低延时(低于1秒级的响应速度)、更高网络抖动容忍度、优秀的抗噪声能力,并且完整的用户数据只会保留在端上。

钟声还在大会现场演示了由STT、LLM、TTS、RTC四个模块组成的端边结合实时对话AI智能体,这也是全球首次有厂商在比日常实际场景更具挑战的环境下展示实时AI对话能力。大会现场观众规模超过千人,面临复杂的噪声、回声、麦克风延迟等困难,但智能体与钟声,仍在普通5G网络环境下实现了流畅、自然、有趣的双向实时对话。“随着端设备的多样化以及能力的提升,AI基础设施会变得更优化合理,使得AI无处不在,AI助理、AI分身帮助我们有效缓解时间稀缺性,改善工作效率和生活体验。”钟声对记者表示。

除了AI应用层面,传统的云架构也在大模型、GPU优化等需求的催化下发生了翻天覆地的变化。

贾扬清认为,AI是云的第三次浪潮,继Web云、数据云之后,AI将成为第三朵云。AI云有以下三个特征:算力会成为智能的基础、AI云需要大量计算与大规模的异构集群,以及少量但高质量的通讯。总体而言,云的产品形态,本质是计算和传输的平衡。“在AI云的形态下,实时的交流和智能的结合在用户体验环节非常重要。毫不夸张地说,实时将直接与生产力画上等号。”贾扬清说。

AI的6000亿美元难题 如何从基础设施到商业化落地

AI的6000亿美元难题,一直都是整个行业非常关心的话题。所谓的这个难题,指的是AI基础设施的巨额投资和实际的AI生态系统产生的实际收入之间,存在巨大差距需要弥补的难题。随着生成式AI投入的持续攀升,曾经全球AI面临的2000亿美元难题,如今已经翻两倍成了6000亿美元。

从AI基础设施到AI商业化落地,中间面临着众多的机会与挑战,而成本和收入难题成为AI商业化落地的第一个拦路虎。

针对AI及大模型技术会产生巨额成本的难题,面壁智能联合创始人&CTO曾国洋向记者表示,随着技术的提升,算力一定会变得越来越便宜,相同能力的模型规模也会变得越来越小,但算力成本优化会最终转化为训练更强大的模型。

“真正达到AGI水平之前,我们只能感受到模型在变得越来越强,很难感受到成本的变化。”曾国洋表示,由于面壁智能是做端侧模型的,所以很关注如何让模型在端上跑得更快,在实际部署过程中,他们会用各种量化压缩甚至是稀疏化方法去优化实际部署的开销。

对此,Agora联合创始人Tony Wang则向记者表示,想要推动AI Infra(人工智能基础设施)到模型再到商业化落地,技术驱动和成本是最核心的两个点。此外,在产品真正走向市场的过程中,流量和口碑也是关键。

而针对商用大模型和开源大模型未来的发展趋势,贾扬清认为有两个重点:其一,同等质量模型的Size会变得越来越小,计算效率会越来越高,模型架构也会变得更加开放和标准。其二,除了极少数头部公司之外,越来越多的企业会采用开源架构来做下一代模型。因此,开源架构的应用会变得越来越普遍,通过开源架构训练出来的模型也都会有各自不同的风格。

那企业在构建自己的大模型自主性上,到底该如何决策?贾扬清强调,企业应该将开源和闭源大模型都纳入考虑范畴。采用开源模型+定制化的优势不仅仅是具备更强的可定制性,还有更低的成本以及更高的速度,开源+定制化能够达到比闭源模型更好的效果。

(编辑:张靖超 审核:李正豪 校对:颜京宁)