语音AI赛道全解析:市场规模超 50 亿,最有机会的场景在哪里?

「未来,消费者更可能倾向于与 AI 沟通,而非人工客服,因为这将成为解决问题的最高效途径。」

这篇来自 Bessemer Venture Partners 的报告,是目前为止对语音 AI 在企业应用上最完整清晰的一次梳理。

核心要点:

尽管市场规模超过 50 亿美元,传统的电话客服系统却备受企业和消费者诟病。

过去一年,语音 AI 在研究、基础设施和应用方面取得了显著进展,推动了语音应用开发的热潮。

语音到语音模型无需音频转录即可处理语音任务,实现了低延迟、更拟人等突破性进展。

企业倾向于从低风险场景开始尝试语音 AI,但高价值场景对可靠性要求更高。

语音 AI 开发者更关注业务逻辑和客户体验,而非底层基础设施和模型管理。

许多公司推出平台和套件,简化了语音智能体的构建、测试、部署和监控。

最具影响力的语音 AI 应用,需要深度集成到特定行业工作流程中。报告认为,目前最有机会的应用场景包括:

转录: 会议记录、对话总结及行动建议。

呼入: 预约安排、线索转化、客户成功管理。

呼出与筛选: 招聘候选人筛选、预约确认。

培训: 销售/面试培训模拟。

谈判: 采购、账单纠纷、保险理赔。

想象一下:你的航班刚刚取消,你被滞留在机场登机口,焦急地拨打航空公司客服电话,却只听到冷冰冰的自动回复:「由于话务繁忙,您的等待时间将比平时更长」。你被困在无尽的语音菜单中,每一个选项都与你的需求不符,只能一遍遍地重复「转人工服务」。好不容易接通人工客服,却又被转接,被迫再次向另一位客服解释你的困境。时间一分一秒地流逝,你却寸步难行,无法重新预订航班或解决问题,机场酒店过夜的阴影也越来越浓重。

这是一场令人沮丧、代价高昂的旅行噩梦,想必很多人都有过类似的经历。

现在,让我们换个场景:你拨打航空公司的客服电话,迎接你的不再是无尽的等待、机械的语音提示或繁琐的选项,而是一位能够立即理解你困境的 AI 助手。它精准识别你航班取消的情况,并根据你的个人偏好推荐最佳的替代方案,同时帮你完成重新预订——所有流程都如同与真人对话般自然流畅。这只是语音 AI 技术应用于我们熟知问题的一个例子。正如大多数变革性技术一样,语音 AI 最具吸引力的应用场景尚未完全展现,因为在人工智能出现之前,这些场景根本无法实现。

随着语音技术栈各个层面的不断进步,语音 AI 解决方案终于能够实现近乎人类水平的对话,提供个性化的客户体验,并具备无限扩展的能力,轻松应对一天中任何时段的需求高峰。那些令人抓狂的机械式交互即将成为过去。未来,消费者甚至可能更倾向于与 AI 智能体沟通,而非人工客服,因为这将成为解决问题的最高效途径。

语音 AI 不仅仅是对软件用户界面的升级,它更将彻底改变企业与客户的沟通方式。语音原生 AI 模型与多模态功能的融合,赋予了语音 AI 变革那些高度依赖人际沟通的行业的力量。我们相信,投资语音 AI 将开启商业通讯的新纪元,使企业能够满足客户日益增长的期望,同时实现更高效的业务拓展。

01巨大的语音市场:62% 的电话被漏接了

人类天生喜爱交谈,每天进行着海量的对话,拨打着数百亿次电话。尽管短信、电子邮件和社交媒体等其他通讯方式日益普及,但电话仍然是大多数企业不可或缺的沟通工具。在医疗保健、法律服务、家庭服务、保险、物流等众多行业中,企业依靠电话沟通来更有效地传达复杂信息、提供个性化服务和建议、处理高价值交易,并满足紧急和时间敏感的需求。

然而,大量的来电却无人接听。例如,中小型企业平均漏接 62% (https://411locals.us/small-business-owners-dont-answer-62-of-phone-calls/) 的来电,从而错失了宝贵的商机,无法充分满足客户需求。当前的通讯系统存在诸多效率低下的问题:下班后无人接听只能转到语音信箱、人工服务一次只能处理一个电话、服务质量参差不齐——这些都导致了过长的等待时间、下班后的延误以及糟糕的客户体验。尽管企业在大型呼叫中心或传统的自动化系统上投入巨资,却仍然难以突破这些根本性的局限。

过去,提升电话沟通效率的科技尝试往往收效甚微。回想一下我们致电航空公司的经历:客户常常在复杂的 IVR(Interactive Voice Response,交互式语音应答)系统中迷失,而这项技术早在 20 世纪 70 年代就已出现。IVR 系统通过自动语音提示,例如「按 1 重新预订」或「请简述您的来电目的」,引导用户操作。尽管这项技术的初衷是为了自动化呼叫处理,但其僵化的架构只能处理预设指令,无法真正理解用户来电的意图和紧急程度。市场对更先进的语音自动化技术的需求日益增长。然而,受限于技术能力,企业难以构建高效、用户友好的语音产品,有效解决客户问题。

02为什么现在是建立语音功能的时候了?

为了更好地理解语音交互技术为何正处于关键转折点,我们将回顾其发展历程。

首先是上文提到的 IVR 系统。尽管目前 IVR 市场规模仍超过 50 亿美元,但它却饱受企业和消费者诟病。

得益于 ASR(Automatic Speech Recognition,自动语音识别)软件,也称 STT(Speech-to-Text,语音转文本)模型的进步,语音领域迎来了第二波创新浪潮,其核心是语音转录,让机器能够实时地将语音转换成文本。过去十年间,随着 ASR 的性能逼近人类水平,一批新公司应运而生,例如 Gong(https://www.gong.io) 和我们投资组合中的 Rev(https://www.rev.com)。OpenAI 于 2022 年底发布的开源 Whisper 模型,进一步推动了 ASR/STT 的发展,并助力构建更自然的对话系统,使其能够处理自然语言,而非僵化的菜单选项。尽管取得了这些进步,ASR 在处理口音、背景噪音以及理解语气、幽默、情感等方面依然存在挑战。

过去一年,语音 AI 领域在研究、基础设施和应用层面都经历了变革性的飞跃。

语音生成技术突飞猛进,像 ElevenLabs 这样的公司重新定义了 TTS(Text-To-Speech,文本转语音)技术,构建的模型能够生成带有前所未有情感细节的声音,使 AI 语音更加自然逼真。谷歌推出的 Gemini 1.5 引入了多模态搜索,将语音、文本和视觉输入结合起来,打造更丰富的用户体验。随后,OpenAI 的语音引擎进一步提升了语音识别技术,其生成的语音非常接近自然对话。然而,最具突破性的进展当属 GPT-4 Turbo 的发布,这是一个能够跨音频、视觉和文本进行实时推理的模型。这标志着语音 AI 的巨大飞跃,展现了 AI 理解和处理人类语音,并在多模态下进行深度智能响应的能力。

这些创新带来了两大发展:

首先,高质量的对话语音多层级模型层出不穷,激发了众多开发者投身语音应用的开发浪潮。传统语音 AI 应用通常采用「级联」架构:首先利用 STT 模型将语音转录成文本,再由 LLM 处理文本生成响应,最后通过 TTS 模型将响应转换成语音输出。

然而,这种级联架构存在两大缺陷:延迟和非文本上下文信息的丢失。

延迟是影响用户体验的关键因素,特别是当延迟超过 1000 毫秒时,因为人类语音的典型延迟在 200 到 500 毫秒之间。去年,GPT-4 Turbo 等模型的发布显著降低了延迟。尽管如此,开发者仍需投入大量工程精力来优化应用,以接近人类水平的延迟。

此外,从音频到文本的转换过程中,情感和上下文线索常常会丢失,而且由于僵化的、基于回合的交互结构,这些系统难以处理打断或重叠的语音。幸运的是,STT、LLM 和 TTS 等技术正快速发展,性能日趋接近。不同模型在延迟、表现力和函数调用等方面各有优势,开发者可以根据具体应用场景选择合适的模型。

其次,STS(Speech-To-Speech,语音到语音)模型的兴起带来了突破性进展。这些模型专为处理基于语音的任务而设计,无需将音频转录成文本。它们有效解决了传统级联架构的主要局限性,特别是延迟和对话动态问题。与以往的模型不同,语音原生模型直接处理原始音频输入和输出,带来了显著的改进:

超低延迟:响应时间约为 300 毫秒,接近人类自然对话的延迟水平。

更强的上下文理解:这些模型能够保留对话早期信息,理解口语背后的意图(即使措辞多变或复杂),并有效识别多个说话者,保持对话的连贯性。

更丰富的情感和语调感知: 能够捕捉说话者的情感、语调和情绪,并将这些细微差别融入模型的响应中,使交互更流畅自然。

实时语音活动检测: 这些模型能够在用户说话时进行监听,这意味着用户可以随时打断。相比依赖僵化轮流机制的级联应用(用户必须等待智能体说完才能发言),这是一项重大进步,为用户提供了更自然、更高效的体验。

语音原生模型代表了对话式语音的未来。

除 OpenAI 最新发布的 Realtime API(通过 GPT-4 Turbo 支持 STS 交互)外,众多公司、开源项目和研究计划也都在积极推动这一新兴 STS 范式的发展。例如 Kyutai (https://kyutai.org) 的开源模型 Moshi,阿里巴巴 (https://fun-audio-llm.github.io/pdf/FunAudioLLM.pdf) 的两个开源基础语音模型 SenseVoice 和 CosyVoice(编者注:此处有误,虽然效果很好,但 SenseVoice 和 Cosyvoice 仍然是 ASR 和 TTS),以及 Hume(https://x.com/hume_ai/status/1833906262351974483) 的语音到语音模型 Empathetic Voice Interface。

03落地的主要挑战:质量、信任度和可靠性

企业采用语音智能体的最大障碍在于质量、信任度和可靠性。这部分源于客户对传统 IVR 系统糟糕体验的负面印象,也因为许多现代 AI 语音智能体在更广泛的应用场景中仍有待提高可靠性。大多数企业最初会在低风险场景下试水语音智能体,但一旦转向高价值应用,对可靠性的要求就会显著提升。

例如,一家小型屋顶公司或许愿意在非工作时间,作为备选方案,使用语音智能体接听电话。然而,由于每个客户来电都可能带来高达 3 万美元的项目,这类企业对于将语音智能体设为主要接听方式会更加谨慎。毕竟,客户对于人工智能在关键时刻的失误容忍度很低,任何差错都可能导致失去宝贵的潜在客户。

用户对语音 AI 智能体的抱怨通常集中在性能可靠性上。这涵盖了各种问题,例如通话中断、智能体出现「幻觉」、延迟过高,以及最终导致客户感到沮丧并挂断电话。值得庆幸的是,语音 AI 技术正在这些方面持续改进。一些开发者平台致力于提供更可靠的基础架构,重点优化延迟,并能从容处理故障而不中断对话。对话协调平台则有助于构建清晰的对话流程,从而最大限度地减少智能体「幻觉」的现象,并引导智能体与客户进行有效沟通。

04语音 AI 市场全景图

从基础模型和核心语音基础设施,到开发者平台以及垂直应用,我们见证了各个层级的创新。我们期待支持创始人在语音 AI 领域构建全方位的解决方案,并对以下几个关键领域尤为感到振奋:

模型

基础模型提供商正在开发支持各种语音驱动应用的技术。目前的供应商主要关注的是为级联架构(如 SST、LLM 和 TTS)设计专用技能。然而,语音 AI 的未来显然在于多模态或语音原生模型,这些模型能够直接处理音频,而无需在文本和音频之间进行转换。

新一代语音 AI 公司正在利用新型架构和多模态功能开辟新天地。例如,像 Cartesia (https://docs.cartesia.ai/get-started/overview) 这样的公司正在使用 SSM(State Space Models,状态空间模型)引领架构创新。我们预计基础模型将获得全面提升,尤其期待看到更小型模型的开发,这些模型能够处理简单的对话交互,而无需依赖最强大的模型。将不太复杂的任务分流到小型模型将有助于降低延迟和成本。

开发者平台

虽然底层模型在延迟、成本和上下文窗口方面取得了显著进步,但构建语音智能体和管理实时语音基础设施对开发者来说仍然极具挑战性。为此,一系列专注于语音的开发者平台应运而生,旨在帮助开发者简化大部分复杂流程。这些开发者工具可以帮助解决几个核心挑战,包括:

优化延迟和可靠性:维护实时语音智能体所需的可扩展且高性能的基础设施是一项繁重的任务,通常需要专门的工程团队进行大规模管理。

管理对话线索、背景噪声和非文本上下文:许多 STT 模型难以准确判断用户何时结束讲话,因此开发者通常需要自行构建「终点」检测机制。此外,开发者通常需要强化现有模型提供的背景噪声过滤以及情感和情绪检测等功能。这些看似细微的功能对于提升通话质量至关重要,它们能够弥合演示效果与客户在生产环境中的更高期望之间的差距。

高效的错误处理和重试:语音模型 API 偶尔出现故障,导致对话戛然而止的情况仍然很常见。要在这种不可靠的基础架构之上构建可靠的应用,关键在于快速识别失败的 API 调用,通过在对话中插入填充词来争取时间,并向另一个模型重试 API 调用,而这一切都需要以惊人的速度完成。

与第三方系统集成并支持检索增强生成(RAG):大多数实际应用场景都需要访问知识库并与第三方系统集成,以便提供更智能的回复并代表用户执行操作。将这些功能以低延迟且自然的方式融入对话系统中是一项巨大的挑战。

对话流程控制:流程控制机制赋予开发者定义明确的对话流程的能力,使其能够更精准地引导对话,而不仅仅是依赖模型提示。在敏感或受监管的对话场景中,例如医疗保健领域的语音交互,流程控制至关重要。在这种情况下,语音助手必须先验证患者身份,然后才能继续后续对话。

可观察性、分析和测试:语音智能体的可观察性和测试在许多方面仍处于起步阶段,开发人员正在寻找更好的方法来评估其在开发和生产中的性能,并在理想情况下对多个智能体进行 A/B 测试。此外,在生产中大规模跟踪这些智能体的对话质量和性能仍然是一项重大挑战。

大多数语音智能体开发者更希望专注于构建产品独特的业务逻辑和客户体验,而不是管理应对上述挑战所需的基础设施和模型。因此,许多公司推出了编排套件和平台,以简化开发者和/或业务用户构建、测试、部署和监控自动化语音智能体的流程。

例如,Vapi (https://vapi.ai) 抽象化了语音基础设施的复杂性,并为企业和自助服务客户提供了快速构建高质量、可靠语音智能体的工具。(编者注:TEN Framework(https://www.theten.ai) 也是这样的一个实时多模态 AI 框架,它为复杂的音视频 AI 应用提供高性能、低延迟的解决方案。)

应用

最后,应用层的公司正在为各种用例开发基于语音的自动化产品。我们尤其对以下应用场景感到兴奋:

端到端地为客户「完成工作」,处理完整的功能并提供有价值的结果;

利用 AI 的按需扩展能力,例如在高峰时段同时处理数千个呼叫;

构建高度专业化、专注于特定垂直领域的解决方案,并与相关的第三方系统深度集成。

这些功能使语音应用能够获得较高的 ACV(年度合同价值),尤其是在创收场景中使用或显著降低成本时。此外,我们观察到,语音 AI 产品正在为以往技术投入不多的客户群体创造新的技术预算,从而显著扩展了总目标市场(TAM),将原本被风险投资公司认为规模过小的市场也纳入其中。

然而,语音应用的质量至关重要。虽然引人注目的演示可以轻松吸引客户,但持续提供高质量、可靠的服务才是留住客户的关键——这知易行难。打造高质量的产品需要恰当结合模型、集成、对话流程和错误处理,从而构建一个能够高效解决用户问题且稳定可靠的智能体。对高质量的极致追求不仅是客户满意度的基石,更能提升产品的竞争壁垒。

我们已经确定了语音 AI 在应用层的几个功能机会。这些功能包括转录(如做笔记、根据对话建议后续行动)、呼入呼叫(如预约、成交热线索、管理客户成功率)、呼出呼叫和筛选(如寻找和筛选招聘候选人、预约确认)、培训(如销售或面试培训的单人模式)和谈判(如采购谈判、账单纠纷、保险单谈判)。

我们很荣幸能够支持引领语音 AI 第一波浪潮的佼佼者,他们目前主要专注于转录应用。我们对 Abridge(https://www.abridge.com)、Rilla(https://www.rilla.com) 和 Rev (https://www.rev.com) 的投资充分体现了这一点。

第二波语音 AI 浪潮中,我们看到企业正在将完全对话式的语音应用扩展到更广泛的用例和行业。Sameday AI (https://www.gosameday.com/) 就是一个很好的例子,它为家庭服务行业提供定制化的呼入电话解决方案,并部署了 AI 销售智能体。例如,如果一位房主的暖通空调系统出现故障,需要紧急维修并致电承包商,AI 智能体可以接听电话、根据问题提供报价、处理协商、在客户的系统中安排技术人员上门服务、接受付款,最终将原本可能错失的商机转化为订单。

在外呼领域,Wayfaster (https://www.wayfaster.com) 等公司通过与求职者跟踪系统集成,自动拨打初步筛选电话,从而使招聘人员的部分面试流程自动化。这样,招聘人员只需花费人力团队所需的一小部分时间,就能筛选出数百名候选人,并将更多的精力集中在与最优秀的候选人达成合作上。

语音智能体也越来越有能力处理跨越多种模式的复杂任务。例如,一些公司正在帮助医疗机构使用语音智能体与承保人进行保险谈判,利用 LLMs 筛选成千上万份保险文件和患者记录,并利用这些结果与保险智能体进行实时谈判。

05我们会投资哪些语音 AI 产品?

底层模型的迅猛发展,为开发者平台和应用层带来了前所未有的创业机遇。模型迭代速度的提升使创业者能够快速构建有效的最小可行产品(MVP),以较低的成本快速测试和迭代产品价值主张。这预示着语音 AI 生态系统正迎来一个蓬勃发展的时代。

虽然我们的语音 AI 论述与我们为投资垂直人工智能企业而开发的框架(https://www.bvp.com/atlas/part-ii-multimodal-capabilities-unlock-new-opportunities-in-vertical-ai) 基本一致,但我们仍希望强调一些语音解决方案特有的关键细微差别。我们尤其强调语音智能体质量的重要性。开发一个引人注目的演示并不难,但要从演示转变为生产级产品,就需要深入了解行业和客户的具体痛点,并具备解决各种工程挑战的能力。最终,我们相信智能体质量和执行速度将成为该类别产品成功的决定性因素。

以下是我们在该领域构建语音 AI 的具体原则:

1. 最有影响力的语音 AI 应用是那些深度嵌入特定行业工作流的解决方案。

这种高度专注让企业可以根据行业特定的术语和对话模式定制语音智能体,并实现与第三方系统的深度集成,使其能够代表用户执行操作。例如,汽车经销商的语音智能体可以与 CRM 系统集成,利用过往客户互动数据来提升服务并加速部署。此外,结合语音和其他交互模式的应用可以自动化通常由人工处理的复杂、多步骤流程,从而进一步增强企业的竞争优势。

2. 通过强大的工程设计提供卓越的产品质量。

虽然为黑客马拉松构建令人兴奋的语音智能体演示可能相对简单,但真正的挑战在于创建高度可靠、可扩展并能够处理各种边缘情况的应用程序。企业需要稳定的性能、低延迟以及与现有系统的无缝集成。创始人应专注于设计能够处理真实世界语音输入的不可预测性、确保安全性并保持高正常运行时间的系统。这不仅仅是功能的问题,而是要建立一个基础,确保弹性、可靠性和适应性,将顶级语音 AI 应用与简单的原型区分开来。

3. 打造卓越的产品质量依赖于强大的工程设计。

尽管为黑客马拉松开发引人注目的语音智能体演示相对容易,但构建真正稳定可靠、可扩展且能处理各种边缘情况的应用则极具挑战性。企业级应用需要稳定的性能、低延迟以及与现有系统的无缝集成。创始人应该专注于设计能够应对真实语音输入中各种不确定性的系统,同时确保安全性和高可用性。这不仅仅关乎功能实现,更在于构建一个兼具弹性、可靠性和适应性的基础架构,从而将顶尖的语音 AI 应用与简单的原型区分开来。

4. 平衡增长与用户留存率和产品质量等关键绩效指标。

语音智能体可以赋能销售等直接驱动收入的功能,许多语音应用公司也正因为客户对提升 GTM 能力的需求而经历快速高效的增长。

产品衡量标准

通话质量和可靠性至关重要,因为语音智能体出现故障会导致用户不满,甚至转向竞争对手。创始人应该优先关注反映产品质量的关键数据指标,例如:

客户流失率: 客户流失率是衡量产品质量的一个重要指标,尽管它是一个滞后指标。我们观察到许多语音应用公司,尤其是在早期阶段,都在努力应对高客户流失率的挑战。这通常发生在客户将重要的工作流程从人工操作转移到智能体后,却发现智能体无法提供可靠且一致的用户体验,最终导致客户流失。

自助解决率: 更高的自助解决率表明语音智能体能够更有效地独立解决最终用户的问题,而无需人工干预。

客户满意度得分:这项指标反映了客户与语音智能体交互后的整体满意度,能够深入揭示用户体验的质量。

呼叫终止率:较高的呼叫终止率通常意味着用户体验不佳且问题未得到解决,这表明语音智能体的性能可能存在不足。

同期群用户呼叫量增长: 该指标衡量每一批用户(同期群)在一段时间内使用语音智能体的频率是否有所增长,这可以有效反映产品价值和用户粘性。

转载原创文章请添加微信:founderparker