《读懂实时互动》,一次搞懂从网络电话到AI语音的音视频进化史

“《读懂实时互动》由声网撰写,深度解析音视频技术、场景及数据”

近年来,线上K歌、视频会议、在线教育、远程医疗等场景纷至沓来,线下的各种生活、学习和工作习惯被颠覆,人们仿佛打开了一个全新的“数字化”空间。不难推测,一旦数字化基础设施建设完成,万物都有机会实现“数字化”转型。其中,实时互动正是一种重要的数字化基础设施,正不断渗透进“数字生活”的每个角落。

回到日常,提到“实时互动”,你会想到哪些应用场景?如果你在生活里看过视频直播、学习时上过在线网课、工作中用过视频会议,那你就已经是实时互动的用户。

那么,如此重要又常见的“实时互动”是如何实现的?由知名的实时互动云服务商声网最新撰写、机械工业出版社出版的《读懂实时互动》一书,系统性地介绍了实时互动的诞生,并如何在数百个应用场景中创造价值。

实时互动,常写为RTE(Real-Time Engagement)。简单来说,它是指在远程条件下沟通、协作的多方,能够随时随地接入、实时传递虚实融合的多维信息,并体验身临其境的交互活动。实时通信是实时互动最基础的功能,即将用户在线下产生的音视频、文本、图片等数据进行实时传输。

实时互动RTE最早出现在声网2020年招股书里。当时,声网将其使命定位为“让实时互动像空气和水一样,无处不在”。事实上,只要需要实时传输音视频,就离不开实时互动。短短几年时间,从在线教育到线上娱乐,实时互动正如空气和水,出现在“线上生态”的角角落落,构成数字生活必不可少的底座。

而伴随生成式AI的问世,实时互动领域的发展边界正无限延展。不难预测,实时互动将增加另一重“身份”:成为AGI时代重要的实时基础设施。回望人机交互从键盘、鼠标、触摸到音视频的演变历程,未来人机交互的方式毫无疑问将向着实时互动的方向继续深耕。声网COO刘斌表示,除了使用上的便捷,在AI的交互对话中加入RTE,可以让交互变得更有温度。

当AIGC“大杀四方”,变革千行百业,RTE的渗透率也将水涨船高。刘斌判断,在实时互动的加持下,AI口语老师、AI客服、AI助手等应用场景的实用性将大大增强。声网《实时互动场景创新生态报告》更是预测,到2025年,实时互动行业将形成超过千亿元人民币级别的市场。

一个新的千亿规模的市场正逐渐成形,全新的市场机遇蠢蠢欲动。

然而,作为新兴市场,2015年实时音视频技术的布道,在国内还处于“三无”状态,即:无行业会议、无专业书籍、无专业媒体及社区。

声网市场副总裁彭小欢介绍,当年,声网举办了首届音视频技术大会。今年,音视频技术大会(现已更名为RTE大会)连续举办到了第10届,声网也已成立满十年。在这个时机,由声网主持撰写,首本系统介绍实时互动的技术型科普图书《读懂实时互动》正式出版问世,终于填补了RTE行业无专业书籍的空白。

翻开《读懂实时互动》第一章节,实时互动技术服务的演变史一目了然。回望其发展历程,最早可以追溯至1999年成立的专注于互联网VoIP及语音信号处理的公司Global IP Sound。

公司的产品GIPS VoiceEngine 曾受到Skype以及QQ超级语音等多款大热应用的青睐。到了2010年,谷歌收购了该公司。尽管可以独占GIPS的技术专利,但谷歌秉持着互联网开源开放的精神,选择完全开源GIPS的核心代码以及免费专利授权,这也成就了后来大家熟知的WebRTC开源项目,并正式拉开了实时互动这个行业的序幕。

WebRTC,即网页实时通信,推动音视频通话开始普及。尤其4G普及后,互联网流量逐步从文字图片转向语音、视频消费,越来越多基于音视频的实时互动应用涌现。但仅有WebRTC,开发者在研发中仍然面临着各种技术服务的欠缺。RTC PaaS应运而生。

RTC PaaS化是指将实时通信技术作为一种服务提供给开发者,开发者只需要调用简单的API接口,就可以实现实时音视频互动功能。该服务的出现,极大降低了开发者的门槛和成本,让更多应用可以享受到实时通信技术带来的价值。成立于2014年的声网就是RTC PaaS化的典型代表,并在此基础上,提出了实时互动RTE的全新概念和愿景。

比较来看,RTC的核心是交流,实时互动RTE则在RTC的基础上,进一步提供了更加丰富和灵活的实时互动能力,让开发者可以根据不同的场景需求,打造更具个性化、差异化的实时互动体验。

在《读懂实时互动》第三章节,声网研究院对实时音视频的技术流程,进行了详细的解析。从音视频采集、前处理、编解码、传输、再到后处理,全图景展示了音视频领域的实时互动是如何实现的。

书中还联系了与实时互动技术紧密相关的常见场景,比如社交应用中已成标配的美颜、声音美化,就是在“前处理”这个部分完成的。

声网首席科学家兼CTO钟声介绍,实时互动在技术层面上要解决的核心问题,是面对复杂的设备和多变的应用场景中,如何在保证数据的高可用、高可靠性的同时,尽可能降低传输的延时。这也是声网深耕的领域之一。通过分布式的“端边云”结合系统,声网实现了传输的低延时,并显著降低了成本,让更多人用得起实时互动服务。

任何技术的落地都离不开与实际场景的结合。

在2021年的RTE实时互联网大会上,声网发布了“RTE万象图谱”,展示了围绕教育、泛娱乐、IoT、企业协作、金融、医疗等20多个行业赛道的200多个实时互动场景。《读懂实时互动》的第四章对这200多个场景逐一介绍,同时选取了31个主流场景,增加了场景示例图展示,更直观的展示了实时互动在各行各业的场景赋能。

值得关注的是,除了在线K歌、直播带货等相对成熟的应用场景,平行操控等新场景正受到行业关注。

所谓平行操控,即通过现代超低延时视频通信技术与实时信令技术的结合,使操作者可以实时的驾驶/操作远端的无人车或机械设备。典型的应用场景包括:物流园区的无人车、矿区的无人驾驶矿车,港口的无人集卡车,以及远程接管脱困的云代驾。针对该领域的业务特点,声网已推出同时满足低延迟、高画质、高帧率等不同业务场景偏好的成熟产品。

此外,《读懂实时互动》还加入了全球范围内的实时音视频大数据观察。

书中第五章节提到,在语聊房这一典型场景下,当频道中的音频卡顿率高于8.1%时,99%的用户是无法接受的。而当用户在频道中的音频卡顿率位于1.2%-8.1%时,音频卡顿率每降低0.1%,用户在频道中停留的时长平均增加18s。而在狼人杀场景下,用户对音频卡顿率似乎更加敏感:当音频卡顿率超过6.9%时,99%的用户是无法接受的。同时,书中还详细列举了各种视频应用的卡顿率,对用户时长和留存率的影响。这些大数据均来自声网十年间服务海量客户后的深刻洞察和总结,对行业从业者有很高的参考、借鉴价值。

此外,得益于声网长期在出海市场的深耕,《读懂实时互动》还列举了全球热门地区RTC用量的机型清单。

像是基于2022年2月-4月声网在全球的RTC数据,声网总结出在中国大陆地区RTC用量TOP30的机型中,苹果手机占比最高,华为次之,而东南亚地区用量第一名同样是苹果手机,第二名则是小米手机。书中针对不同市场提供的不同终端用量情况等数据,将帮助有出海需求的企业和开发者因地制宜的做好出海规划和业务拓展。

据彭小欢介绍,本书开始撰写时,生成式AI还未呈爆发之势,不过当时声网就已经开始关注AIGC与RTE的结合,并在书中介绍了声网RTE与AIGC结合的初步探索。如今,多模态的大模型实时交互已经是大势所趋。

在钟声看来,RTE是智能化生态的重要环节。相比较文字的交互方式,实时音视频的互动更具沉浸感,与AI的互动感也更强。同时,AIGC的出现也从技术上让实时互动更“身临其境”,比如通过AIGC的方式,可以更高效地生产各类RTE背景和道具,打造更真实、丰富的虚拟场景。

目前,围绕“实时互动+AIGC”的方向,声网正在不断探索和实践,并已经推出了对话式AI解决方案。该解决方案以语音为核心,支持视频扩展,通过低延时响应、智能打断、AI降噪、超拟人化人声合成等丰富的功能,构建真实、自然的AI语音交互体验,且已经具备落地能力。面向已经汹涌而来的AIGC变革浪潮,声网也将在线上营销、在线教育、泛娱乐、IoT设备等领域重点布局,迎接实时互动在新时代的新机遇。

《读懂实时互动》中也提到,声网在RTC领域积累的优势在AIGC浪潮中将发挥重要作用。钟声表示,当下大模型厂商都在发力AI实时语音交互,声网作为RTC领域的佼佼者,大模型语音交互延时最低能做到600毫秒左右。

与此同时,相比较市场上大部分3-4秒的AI互动延迟时间,声网的解决方案可以将对话响应延时控制在1秒内。而针对缺乏AIGC开发经验和能力储备的企业客户,声网可以提供封装完整的SDK,最快3小时即可实现方案快速验证。

AIGC与RTE交织,正带来人机交互的更多可能。随着交互模式从文字升级为音频、视频的多模态,实时互动的边界和未来不可限量。

声网COO刘斌表示,AIGC的应用场景铺展开,必然要用到实时音视频传输。通过在大模型交互对话中加入实时音视频能力,AI交互会更加有温度,更具真实感、沉浸感,用户也会更有参与感。

他举例,线上的口语老师在教学中就离不开实时音视频的能力。除了人与人之间,人与机器人之间也会产生实时互动的需求。届时,机器人将通过语音以及形象,与人类实时互动,为社交玩法创造更多想象空间。

谈到《读懂实时互动》的创作,彭小欢介绍,声网在其2021年发布的“RTE万象图谱”,以及2022年发布的全球区域RTE场景热力榜单的基础上,更新相关数据,并将RTE场景展开叙述,同时加入实时互动的技术栈和历史栈,于是顺理成章的诞生了这本《读懂实时互动》。

图书的配套资源也包含了电子版RTE万象图谱

借由本书,声网希望让更多人了解实时互动的来龙去脉以及其在生活中的应用有多么丰富多变。彭小欢表示,只有更加了解实时互动,用户才能更好地挑选和使用适合的实时音视频服务;同时越多的人了解和加入到行业中来,也才能最大化的激发实时互动的创造力。

目前《读懂实时互动》已在京东、当当等电商平台上架。