智能音箱将死,大模型烧纸

9月15日,有媒体报道称阿里巴巴旗下“天猫精灵”将更名,并且已有XGENIE品牌字样的新品在部分渠道露出。阿里方面相关负责人的回应是,“确实计划推出全新品牌,强化精灵属于用户的个性化特征”。

“换号重练”的动作背后,是生成式大模型浪潮给已经沉寂的智能音箱行业刮来的一缕新风。

去年国内智能音箱的出货量仅有2600万台,市场结构呈现出高度的集中化,小度、小爱和天猫精灵三家合计份额超过了90%。不过头部这几家整体的市场份额差距不大,百度是35%、小米是31%、天猫精灵则是27%,三分天下的结果意味着没有一家迈过1000万台出货量的门槛。

这个成绩放在曾经被视为下一代互联网关键入口的智能音箱赛道上,即便不能说泡沫完全破裂,也是实实在在退了潮。站在今天回头看,阿里2020年投入100亿围绕天猫精灵的战略布局,性价比大概还赶不上李彦宏当年拿200亿做糯米。

不过在大模型涌现出更高水平的智能后,智能音箱这个行业似乎有了东山再起的可能。

先是在2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型“小度灵机”,并会将其应用到小度全系产品中。

随后4月11日的阿里云峰会上,天猫精灵也宣布将结合通义千问。兼任阿里云CEO的张勇表示,未来天猫精灵希望能成为“个性化的智能助手”,并推出了模仿脱口秀演员鸟鸟声音和性格的“鸟鸟分鸟”。

小米这边虽然本身在大模型方面的进度比互联网大厂慢一些,但在上个月也已经开启了小爱同学的AI大模型版本测试。

只是大模型虽然一片炽热,但智能音箱的前景并没有看起来那么光明。

01、智能音箱是入口,先要智能家居管够

当2014年Echo亮相时,其实卖得并不好,起码在销量上是如此,最初亚马逊也只允许Prime会员或者受邀用户使用该产品。但在Echo推出后不久,包括谷歌和苹果在内的大厂就决定要做一款类似的产品,因为它们认为智能音箱会成为用户家庭生活的中心,尤其是作为各类智能家居的接口。

这个逻辑后来得到了国内众多企业的认可,他们相继推出了自己的智能音箱产品,一时间消费者眼花缭乱。后来剧情走向跟互联网科技行业的其他细分领域一样,百度、小米和阿里依靠雄厚的资金实力完成了对其他玩家的围剿,并把“三足鼎立”的市场格局保持到了今天。

只不过遗憾的是,突出重围的玩家并没有胜利果实可分。根据洛图科技的数据,2022年国内智能音箱的全渠道销量只有2631万台,同比下降了28%。今年上半年,行业萎靡的趋势得到了保持,同口径的统计数据是全渠道销量1148万台,同比下降了19%;对应的销售额为33.7亿元,同比下降了20%。

对于智能音箱市场的颓势,一个可能的解释是它所希望服务的对象群体没预想的多,消费者对智能家居产品的热情没那么高。

从国内互联网的发展历史看,消费互联网的步伐要比产业互联网快得多。

当前用户手机上所能看到的所有国民级软件,在C端的用户普及过程都是一条极其陡峭的增长曲线,微信和抖音都是典型的例子。比如,微信是2011年上线,到2016底的时候其月活就已经接近9亿,基本等价于全面覆盖了对应时点中国移动互联网网民群体。

而相较之下,产业互联网的节奏要慢得多,即便是动静最大的云计算行业也是如此。在最初一批泛互联网企业实现数字化上云过后,后续传统行业的拓客只能靠各大云厂商庞大的销售队伍去艰难推进,以至于所有云厂商不得不把重心放到G端,因为后者是目前最稳定的业务来源。

但在某一个细分领域,消费互联网跟产业互联网的位次却恰恰相反,那就是智能设备或者说物联网(IoT)。

有工厂的企业一般都有着较为强劲的动力在车间里装上各式各样的传感器和机器人,这背后的原因既包括减少人工成本,也是因为这样做能在生产效率和安全性等方面有大幅提升。

例如,特斯拉成功的一个关键支点,就是使用大量自动化设备和软件系统的超级工厂,马斯克甚至将自动驾驶理念引入流水线。今天,国内汽车制造行业智能设备的渗透率已经达到了36.5%。

相较之下,C端的智能设备,也就是我们通常说的智能家居,在推广应用上明显落后。方正证券四月的一份研报里,引用了Statista的数据,给出的当下中国智能家居渗透率仅为13%。考虑到有众多的所谓智能家居处于吃灰状态,实际的利用水平可能比这个数据更低。

之所以呈现出这样的分化,最根本的原因是工厂里的智能设备是“刚需”,而家里的智能设备可能连“鸡肋”都算不上。

以本文关注的智能音箱为例,大部分消费者把这个东西买回家,都是抹掉“智能”当作“音箱”在用,比如讲讲故事听听歌之类的。Rakuten Insight的调查结果就显示,高达79%的拥有智能音箱的国内受访者表示,他们使用智能音箱主要是为了搜索音乐和播放歌曲。

由于各家此前采用的竞争战略太激进,智能音箱的价格普遍难以覆盖各个环节的成本。在“星辰大海”的梦想破灭过后,不得不祭出一些骚操作回血。像天猫精灵前几年听一些APP的会员歌曲是不用付费的,而如今即便你开通了音乐APP的会员,还需要进一步开通天猫精灵的会员才能听歌。

其他的智能家居设备往往跟智能音箱差别不大,其实也没有智能到足以在消费者群体里创造刚需价值。考虑到家用产品普遍经久耐用,如果没有必要性,消费者采纳新产品的时间会拖得比较长。IDC给的估计是,2022年全球智能家居设备出货量将下降2.6%。(注意不要把这样的降幅跟智能手机对比,智能手机已经渗透到顶了,但大量的传统家居设备还没被替代。)

另一个需要考虑的问题是,智能音箱跟不同品牌的各类智能家居设备的兼容性。阿里拿出100亿元人民币,重点就是围绕天猫精灵打造生态上面。不过由于家电厂商往往倾向于不跟某家科技公司绑定,所以很多产品都支持接入不同品牌的智能音箱,基本的适配一般没有问题。

02、大模型是革命,革智能音箱的命

当然,智能音箱过去几年的命运转折,显然不能都归咎到智能家居市场的整体状况不够给力。更主要的原因,仍然是智能音箱本身不够智能。很多时候跟其他的人工智能产品一样,智能音响表现出的行为更偏向“人工智障”。

通常用户只能给它下达极其简单的指令,比如听歌、看天气、控制灯光或者给小孩讲睡前故事。而一旦语音指令的结构略微复杂,或者涉及多轮交流互动的场景,智能音箱的表现就成了灾难现场。

智能音箱的工作涉及三个流程,把用户的语音转换成文字指令,理解指令的意思并进行处理,然后是将处理的结果转换成文本输出。上述三个流程分别对应三种技术,自动语音识别(ASR),自然语言处理(NLP)和文本转语音(TTS)。

其中,头尾两个语音和文本之间相互转换的环节已经非常成熟,智能音箱的“智障”根源在中间的自然语言处理。而生成式大模型的出现,使计算机的自然语言处理能力发生了跃进。在一般的场景里,GPT表现出来的沟通对话能力已经令一些人开始讨论通用人工智能(AGI)跟我们的距离。

所以,毫无疑问生产式大模型确实能够大大补足现有智能音箱不够“智能”的缺陷。因此如《新立场》在本文开头提到的,现有的头部智能音箱大厂都在这方面有动作。而且从时间节点上看,大家都异常兴奋和着急。比如百度2月9号说要在小度里面集成文心一言的时候,文心一言还不知道在哪呢。

大模型或将给智能音箱带来变革,这看起来的确是个成立的逻辑。除了各家智能音箱的厂家摩拳擦掌,行业内关注这个方向的媒体也充斥着类似的看法。

然而在《新立场》看来,大模型虽然解决了传统智能音箱面临的最大问题,但同时也彻底解构了智能音箱曾经设想的应用场景。

智能音箱从诞生以来,身上贴的最鲜艳的标签就是“入口”,另一个同样贴有这个标签的东西是智能手机。如果大模型最终真的足够智能,那么决定智能音箱命运的关键,就是在“入口”这个角色上,它能不能竞争得过智能手机。

答案显而易见,除了外放功率这个指标,所有智能音箱能干的事,智能手机都能干。而反过来,智能手机能完成的任务和跟用户的紧密联系是智能音箱远远不及的。笔者了解到的一个场景是,有些用户的家里会有多个智能音箱,客厅卧室不同区域各放一个。如果你需要以一种优雅的方式,在家里的各个地方对智能音箱发出指令,那这就是必须的。

所以,智能音箱跟智能手机相比基本没有任何差异化优势。

而在大模型面世后,由于大模型在通用智能上的惊艳,人们显然会倾向于把大模型当作真正的个人助手或者伙伴,然后再通过它来解决尽可能多的问题。这种情况下,智能音箱的角色会被加速归并到智能手机的个人助手,因为那才是真正不可替代的入口。

归根结底,如果大家都是“人工智障”,用户的使用需求不大,那我还不会那么快取代你;而如果有了真正的人工智能,用户的需求上来了,那他既会用这个人工智能助手帮忙写PPT、查资料,也会跟他做沟通交流寻求情感安慰,当然也会用它控制家里的冰箱、空调、电灯泡,而不是单单局限于某个具体的场景。

03、写在最后

一个有趣的事实是,在推出Echo之前,其实亚马逊有个优先级更高的智能手机项目Fire Phone。如果不是智能手机项目的失败,亚马逊后来会不会推出Echo这个产品都需要打个问号。

在差不多十年时间过去后,智能音箱这个行业已经经历了一轮完整的兴衰。在生产式大模型爆发前,这个行业仍然存在的最大原因并不是用户需要,因为如果用户需要的东西,他们会愿意花公允价钱去买,而不是得厂家半卖半送。

在智能音箱这个行业眼看着要随着惯性逐渐湮没的时候,大模型来了。 但它不是强心剂,而是催命符。 智能音箱一开始就多余,大模型来了就更多余。

*题图及文中配图来源于网络。