向量数据库,展望AGI时代
无论是向量数据库,还是大模型,归根结底,大家在追捧它时的心态,焦虑大于需求。 向量数据库的热潮,在一定程度上“外化”了人们的焦虑。
但这并不能否定向量数据库的实际价值,甚至更长远来看,向量数据库正走在证明自己的路上。
作者|思杭
编辑|皮爷
出品|产业家
每逢淘金热,最后的赢家都是卖铲人,而非淘金者。
这是著名的铲子理论。在今年大模型的风口下,向量数据库就成了这把铲子。
在此之前,向量数据库经历了几年的沉寂期,现在似乎终于成为资本的“宠儿”。这个曾经冷却的赛道如今在半年间就收获了10亿元融资,然而,资本“无节制”的追捧对于向量数据库赛道究竟是奖励,还是惩罚?是终于等到机会可以放手一搏?还是前路漫漫,遥遥无期?
判断一条赛道是否真的有潜力,资本的注入虽是前提,但更重要的还有市场的态度。大模型应用的逐步落地于向量数据库而言,无疑是最好的催熟剂。
然而任何新技术的到来,都需要更长的时间才能得到市场的接受。
对此,产业家通过了解多家目前已发布向量数据库的厂商,从他们口中可以窥见出目前的市场态度。
于星环科技而言,从5月份正式发布向量数据库产品至今,已走过近半年的时间。在他们的观察中发现,客户对大语言模型等深度学习应用非常感兴趣。然而,客户目前仍处于学习和选型的阶段。在将新技术引入实际业务之前,客户也需要时间来适应和了解这些新概念。
另外,在近期,腾讯云也更是宣布了向量数据库的产品升级。在发布会当天,腾讯云数据库副总经理罗云对媒体表示,向量数据库产品目前的对外客户数已过千家。
据了解,目前腾讯云在向量数据库的发力点是从已有客户开始拓展,如今客户也正处于拥抱和适应新技术的阶段。
一份关于向量数据库更真实的市场调查是,随着AI应用场景加速落地,据西南证券分析,预计2025年向量数据库渗透率约为30%,其中,中国向量数据库市场规模约为82.56亿元。而据中国信通院测算,到2025年,中国数据库市场规模将达688亿元。这意味着,两年后向量数据库在中国的渗透率将超过10%。
在国内,不少数据库厂商都在尝试推出向量数据库产品,然而从市场验证阶段走向实现盈利,中间还需要一段更漫长的时间。
在此过程中,不乏有质疑声出现。比如前段时间,流数据库公司 RisingWave创始人&CEO吴英骏公开发文“为什么你不应该押注向量数据库?”。在文中,吴英骏表示,尽管他对向量数据库的前景颇有信心,但目前并不鼓励进入向量数据库市场。
向量数据库究竟是虚火过旺还是星辰大海?在向量数据库这条赛道,能否看到更远的未来?在这一命题下,笔者试图从向量数据库的市场应用和演进历程,来揭开这一神秘的面纱。
一、“单打独斗” VS ”团队协作“?
大模型解决的是计算问题,而向量数据库则解决存储问题。
这是从2023年初向量数据库崛起开始,至今为止行业内公认的看法。
“绝大多数人工智能研发的项目从未投入生产,这其中的关键原因是缺乏正确的工具。而大语言模型与非结构化数据的结合,可以为AI应用相关的创业者打开新世界。”
在最吸金的海外向量数据库创业公司中,Qdrant正是其中一家。其CEO兼联合创始人Andre Zayarni对于当前向量数据库与大语言模型的结合,发表了上述观点。
一个更恰当的比喻是,向量数据库充当了连接非结构化数据与AI应用的桥梁作用。也可以说,向量数据库是专为AI量身定制的。
实际上,在Gartner的调查报告中曾表示过当前非结构化数据的增长速度。现在90%的新数据都属于非结构化数据,而非结构化数据的增速更是结构化数据增速的三倍以上。
然而,非结构化数据需求的激增,是否真的能带来向量数据库需求的增长?两者也许未必能划上等号。
在向量数据库赛道中,一个更大的争议点是,是否真的有必要单独设计一款向量数据库的产品,还是仅仅将向量化搜索能力嵌入到传统数据库当中即可。
回答这一问题前,理解究竟什么是向量数据库,以及向量数据库的具体应用则十分必要。
首先,向量数据库的“向量”也可以理解为一种“标签”或某种”属性“。在AI应用中,这些标签可以准确地帮助AI找到问题的答案,从而通过提取标签来提取数据。
一个生动的比喻是,向量就像一张地图,任何对象都可以根据时间序列信息在列表和表格中找到答案。
对此,星环科技基础架构部副总经理刘熙给出了更具体的诠释。与传统的数据库不同,向量数据库处理的是非结构化数据,如图片、视频、长文本和音频等。这些数据的意义不在于其物理表示,并不仅仅是一堆字节,真正有意义的地方在于隐藏的语义。
而向量数据库在其中发挥的作用是,通过AI技术,例如典型的神经网络,来识别、提取和编码非结构化数据背后的语义特征。最终,将这种数据的语义映射或嵌入到高维的向量空间中。
这样做的好处是,将数据库无法直接处理的语义问题,转化为向量空间中的一个搜索问题。简而言之,利用AI技术,将数据库无法直接处理的数据背后的语义,转化为一个结构化的过程。
放在更具体的场景里,比如大语言模型要如何与向量数据库建立连接?
对此,百度智能云大数据技术负责人李莅之前曾表示,从多个方面来看,向量数据库都是大模型的必要设施。首先,大模型自身能够存储的数据是有限的,而大量的知识数据需要被存储起来,以供大模型在问答时使用。
所以向量数据库在其中的作用是,它可以让大模型回答出更实时的内容。倘若让大模型根据最新的消息做回答,这时候就需要通过一些外置的数据库,将这些外置数据库中存储的数据直接输给它,这样大模型就可以结合这些数据去做更准确的回答。
而在大模型与向量数据库结合的应用方面,星环科技提供了一个真实案例。在其开发的金融大模型中,向量数据库就派上了用场。
刘熙告诉产业家,在金融大模型的开发场景中,从财经新闻中通过实体识别算法可以提取企业法人等信息。这些信息并不仅仅是向量,它们更像是一些属性标签。类似地,在以前的电商场景中,对于商品图片,除了特征向量外,还可能提取价格、颜色等结构化标签。
所以,关于单独设计向量数据库产品,还是将向量化搜索能力嵌入到传统数据库中?这是一个”单打独斗“和”团队协作“的话题。
在刘熙看来,基于传统关系型数据库封装向量计算功能,和专业的向量数据库,是两条的技术路线。“如果只是小数据量、访问并发延迟这类要求也不⾼的情况下,从原有数据库⾥封装向量计算的方法可能是可行的;但如果数据规模、访问并发等指标达到一定级别,出于性能、扩展性、资源弹性方面的原因,这时则需要专业的向量数据库。”
同样地,罗云也认为这两者并不互斥。但至于单独设计向量数据库产品,也是一种必然。
具体来看,向量在未来是一种通用人工智能背后的数据格式。也就是说,向量需要桥接关键数据库、非关键数据库等所有结构的数据。但将不同结构的数据放在一个数据管理平台上,最后的结果是,不同数据格式的差异会导致没有办法更好地利用非结构化数据。
因此,在这种模式下,将向量化搜索能力插件到传统数据库中是很难的。比如在一个分布式数据库里去支持向量化插件,让它来处理腾讯云存储的数据,那么它最后也会变成一个独立的向量数据库。
但如果数据库的场景只是在MYSQL里检索部分的向量,那么将向量化搜索能力嵌入传统数据库,这样的解决方案也成立。
对此,李莅的看法是,大模型的核心需求就是向量检索的能力。按逻辑来讲,传统数据库加上向量引擎,这样的解决方案能够行得通。
但问题也在于,业务规模发展壮大后,这时就单独的向量数据库产品,来支持上亿用户访问量的大模型应用。其中,这里面还要各种架构考量,比如存算分离等技术,来保证大模型的规模化扩展。
因此,综合来看,得出的结论则是,短时期内,在大语言模型还未规模化使用时,“团队协作”的方案还能够解决一些问题。
但站在更长远的角度,向量数据库这条赛道一定会在数据库领域中占有一席之地。
二、向量数据库的前世今生
从2017年到2019年,于向量数据库的发展而言,是一段更为重要的时间。
如果说,2023年大模型的爆火,让向量数据库进入到发展期,那么2017~2019年就是它的萌芽期。
根据产业家了解,腾讯云、星环科技、百度智能云、京东科技等也恰都是在这个时间段将向量数据库的相关组件应用到具体的业务之上。
这些都是目前市面上已发布向量数据库产品的厂商。
实际上,2017~2019年这段时间所对应的背景也正是,非结构化数据需求的激增。
一个具有代表性的事件是,2017年,短视频的爆火,催生了新媒体行业,各种结构数据也随之出现。这一现象就导致了不同结构数据的处理需求。
除此之外,京东、腾讯和百度的内部产品也有更多类似的需求。而向量化引擎也正是从这一时间点开始萌芽。
2018年,星环科技内部的AI团队有了向量数据库这一需求。
然而,当时向量数据库的赛道还是一片沉寂,对于是否要专门研发处理向量数据的数据库,星环科技内部也在谨慎考虑。
当时的场景是,星环科技AI团队提出向量数据管理对于其AI业务非常重要。虽然当时有Faiss向量库来处理这类数据,但由于当时Faiss的版本还处于比较早期的阶段,AI团队需要自己编写代码来管理这些向量数据,基本上每个项目都需要重复进行这样的工作,非常费时费力,而且可能无法保证高可用性和安全性。
因此,向量数据库的需求也早在当时就诞生了。和现在不同的是,当时并看不到太大的市场,尽管在星环科技的眼中,这项技术有十足的潜力。
于是,他们内部做出了一个决定。“即使向量数据库可能不能立即商业化,但我们仍然认为有必要为将来做这样的技术储备。”刘熙回忆道。
那时星环还专注于开发多模型统一处理技术,逐步将一些数据库的通用功能,如分布式存储、分布式计算、安全性和资源管理等功能,从紧耦合的架构转化为松耦合的架构,目标是通过统一的架构来更好地支持各种数据库,例如图数据库和时序数据库。
同时,内部团队不需要太多考虑面向客户的问题,需求相对明确,因此星环科技很快就完成了从0到1的第一个版本,并交付给AI团队。之后,随着AI团队的深入使用,星环科技向量数据库开始持续迭代,最终成为一个成熟产品走向市场。
类似的故事也发生在京东、腾讯云和百度智能云的内部。
京东的故事则发生于2017年。当时,团队内部正在着手处理一些以图搜图的应用场景。为了解决京东的搜图场景,团队构建了一个十亿规模的向量数据库,主要的场景是针对京东每天上架大量商品时,需要即时展示商品图片。而实时性成为了当时的重要问题。
而这正是京东向量数据库vearch的诞生背景。
而相比之下,百度智能云的故事就显得不太一样。
2019年,百度智能云也将注意力转移到了向量检索技术的身上。他们计划在Elastic Search公有云场景上去做一些向量的能力。
Elastic Search(ES)属于NoSQL数据库的一种。如果再细分,它是文档型或搜索型数据库。由于有各种搜索场景的需求,所以它会存向量的数据。而既然存了向量的数据,ES又是一个搜索型的数据库,自然也要搜索向量的数据。这也是百度智能云在此基础上加向量检索能力的背景。
具体来讲,百度智能云在ES上做了两点改造:一是支持向量数据列式存储格式,二是基于社区开源的向量相似度引擎做了一些搜索加速的改进。
四年后的今天,向量数据库终于迎来自己了的光辉时刻。而在各种欢呼声和质疑声下,向量数据库也在逐渐完成蜕变。
三、向量数据库,展望AGI时代
从某种程度上而言,无论是向量数据库,还是大模型,归根结底,大家在追捧它时的心态,焦虑大于需求。而这种焦虑则来源于“害怕被落下”。
大模型、多模态、OpenAI的新应用等等新技术、新应用的出现,正在迅速刷新着人们对AGI时代的期待,仿佛它下一刻就会到来。
而向量数据库的热潮,在一定程度上“外化”了人们的焦虑。但这并不能否定向量数据库的实际价值,甚至更长远的价值。
虽然,目前向量数据库仍处于发展初期,但可以确定的是,向量数据库与大模型一定是捆绑关系。因此,未来其演进方向也一定随着大模型能力的演进而发生变化。
在罗云看来,“未来,向量数据库解决的是整个智能世界的智能存储和管理问题。”
而在具体的演进方向上,向量数据库一定会考虑多模态数据的表达以及数据的智能化管理。
首先,在大模型应用百花齐放的背景下,向量数据库对于多模态数据的处理意义,变得十分重要。
一个生活化的例子是,吃饭、看电影、听音乐等等娱乐事项,这些记录了你的一天。接下来,你想通过自然语言将其全部调取出来。
那么如果没有一个单独的向量数据库参与,以及没有合理的多模态数据处理方式,这种情况下是无法查询出这些数据的。而所谓的多模态也正是除了文字以外的照片、视频、音频等数据。
但随着多模态数据规模上的提升,另一个问题也随之出现。不同数据库中数据如何将其统一管理并让数据流通起来,这其中涉及到的智能化管理也是向量数据库未来的发力点。
因此,未来的向量数据库需要承载的是智能化数据平台。
另外,在星环科技向量数据库产品Hippo过去的研发过程中,刘熙对于扩展性、成本、易用性和路径优化方面都提出了挑战。
首先,在扩展性和成本方面,大模型的普及让向量数据的规模不断增大。对于向量数据的存储和索引,也提高了对硬件资源的要求,成本也自然随之提升。
而在易用性方面则涉及到了多种参数的挑战。与传统的关系型数据库不同,向量搜索涉及到更多维度的考量,包括性能和召回率等。而为了平衡性能和召回率,需要调整各种参数,但这对用户来说并不友好。因此,简化参数选择,提高用户体验是更加重要的挑战。
最后则是混合搜索中的路径优化问题。与传统的优化器相比,向量搜索的优化器更加复杂,因为它需要考虑多维度的因素。如何设计一个能够描述向量搜索代价的模型,以实现性能和召回率的平衡,是一个需要解决的难题。
不可否认的是,向量数据库的未来有星辰大海,也有曲折的前路。
背靠大模型,向量数据库在2023年成为了资本的“宠儿”。然而,在未来的AGI时代,向量数据库还有更多实事要干。