淺談全球人工智慧熱潮如何推動資料管理市場

※如欲转载本文,请与北美智权报联络

苏翰扬╱产业分析师

对于人工智慧使用者而言,资料管理对于人工智慧专案是否成功扮演着重要角色,因此,企业如何建立出色的数据管理并决定与那些公司合作非常重要。

2024 年第一季度,近 1/3 的公司执行长在财报会议中提及人工智慧,但只有极小部分(占所有财报会议的 1%)讨论资料管理的应用。事实上,资料管理对于人工智慧的成功至关重要,调研机构指出,从2023 年到2030 年,整体成长率预计为每年16%,到2030 年底,市场预计将达到5,130 亿美元。若进一步观察,人工智慧模型大幅依赖资料进行训练和操作,而为了训练专门设计用于特定业务流程和环境的模型,公司必须评估其资料管理技术堆叠的 7 个关键要素。

要素一:资料来源

资料来源包括来自多个储存库的多种资料格式,可能包括企业资源规划 (ERP) 或客户关系管理(CRM) 等企业系统、来自可程式逻辑控制器 (PLC) 或感测器等装置的物联网数据,或其他外部资料(例如社群媒体或政府数据)数据等。资料来源为人工智慧训练奠定了基础,因为复杂的人工智慧通常需要来自不同来源的大量资料组合。连接的资料来源越多,人工智慧模型就越强大、越通用。因此,确定需要那些数据、从那里获取数据以及如何收集数据是关键,例如生成式人工智慧主要处理非结构化数据,即无法完全适合关联式资料库的讯息,例如文字或图像,这些非结构化资料必须被识别、整合并整合到资料储存系统中,以最大限度来发挥人工智慧的潜力。

要素二:资料撷取

资料撷取主要来源(ERP、CRM、PLC 或外部来源)收集数据,并使用连接器将其统一到储存系统中,以确保相容性和正确的格式处理,企业必须持续收集各种来源的数据并将其输入人工智慧演算法,为了确保人工智慧模型发挥作用,避免可能导致资料缺口的连接问题至关重要,连续资料流对于需要即时资料的应用程式尤其重要,延迟可能会导致错失机会或增加风险。一个例子是,美国非营利组织Apache的 Kafka(分散式事件流平台)等技术可以以高吞吐量和低延迟促进即时资料收集和处理,这使业者能够数据生成时采取行动,从而提高回应能力和营运效率。例如,线上串流服务Netflix运用Kafka 管理超过 7,000 亿个日常事件,确保资料流与即时处理,以维持超过 2.6 亿订阅者的高品质用户体验。

要素三:资料储存

储存使用技术和架构来保护、组织和储存资料。有两个主要组成部分,分别是(1)储存技术,包括用于资料储存的硬体(HDD 或 SSD)和软体(资料库管理系统 (DBMS));(2)资料架构,包括资料仓储、资料湖或云,用作资料架构和资料存取的蓝图。资料储存可确保有效存取所需资料。储存至关重要,因为它提供了必要的基础设施来集中组织和管理人工智慧模型所需的大量资料。储存技术确保资料的快速访问,直接影响人工智慧应用的效能。此外,随着人工智慧专案的扩展和发展,可扩展的储存系统支援不断增长的资料需求。

资料储存市场是由资料架构细分市场的成长所推动的,随着资料量持续成长,多家机构预测,到 2030 年资料架构细分市场的年复合成长率将达到 18%,这显示出企业资料以产生有价值的见解的重要性日益增加。相较之下,储存技术同期复合年增长率预计将低于平均 8%;过去十年,硬体储存成本大幅下降,例如,2016 年,记忆体成本为每 TB 203 美元,此后固态储存成本已降至每 TB 49.50 美元,预计该趋势将导致储存技术细分市场的成长率低于平均值。另外,向量资料库在产生人工智慧用例中越来越受欢迎,这些资料库对于索引和搜寻用于相似性搜寻,及模式匹配的高维向量至关重要,该趋势表示特定人工智慧应用正在转向新的、先进的资料管理系统。

要素四:资料转换

资料转换为将资料细化并重组为适合详细分析的格式,堆叠的这一部分涉及清理、整合和修改数据,以确保品质以及与分析工具和储存结构的兼容性,提取数据,将其转换为标准化格式,并将其加载到目标储存中,此流程可确保资料干净、结构化并可供分析。资料转换对于人工智慧至关重要,因为它将原始资料转换为干净的结构化格式,使其易于人工智慧训练和操作,此过程包括档案格式转换、资料清理、保护敏感资料(对于生成式人工智慧尤其重要)以及巨集资料以支援查询,预测人工智慧和产生人工智慧都将需要预处理资料以保持资料品质和有用性。

此外,反向 ETL 对于将 AI 产生的见解整合到业务流程中非常重要。与将资料移至集中式储存系统(例如集中式资料仓储、资料湖或云端)进行分析的传统 ETL 不同,反向 ETL 从这些系统中提取资料并将其同步回营运应用程式。透过将 AI 产生的见解转移到 ERP 等系统,反向 ETL 使组织能够将 AI 结果整合到业务流程中,确保这些见解能够及时应用以增强业务营运、决策等。

要素五:资料分析

分析将资料转换为有意义且可操作的资讯,这部分堆叠包括商业智慧工具,将数据转换为视觉化报告、仪表板和指标,使理解和交流见解变得更加容易。第二是数据科学工具,透过识别传统方法可能无法立即看到的更深层的模式、趋势和相关性来增强分析。资料分析对于人工智慧至关重要,它提供开发和完善人工智慧模型所需的工具,业者透过利用资料探勘、统计分析和机器学习等技术,分析有助于发现模式和趋势,从结构化和非结构化资料中提取洞见。到2030 年,分析细分市场的年复合成长率(CAGR) 为20%,而商业智慧细分市场预计将成长最快,年复合成长率为27%,这些预测强调数据驱动决策的重要性和投资日益增加。

举例而言,Airbnb利用人工智慧来改进其主人-客人匹配流程,透过使用A/B 测试、图像辨识和预测建模等技术来增强用户体验和增加预订,公司的模型根据用户搜寻来预测预订机率,并且他们的价格提示功能可以为房东提供最佳定价建议,此外,为了解决某些亚洲游客的高跳出率问题,Airbnb 对网站进行修改,使将转换率提高10%。

要素六:资料治理与安全

资料治理和安全性透过策略、流程和角色确保组织资料的完整性、可用性和一致性,确保其对业务营运的可信度,且在近期欧盟人工智慧法案通过下,资料治理的重要性又更上层楼,资料治理和安全性对于人工智慧至关重要,因为它们可以保护资料和人工智慧模型,这对于开发准确、符合道德的人工智慧模型以及保护投资这些模型的智慧财产权至关重要,资料管理不善可能会导致专有和私人资讯泄露,从而可能导致罚款和负面宣传;此外,强有力的措施可确保所使用的数据准确且不受影响,从而提高人工智慧模型的品质,它们还能防止资讯外泄以及对人工智慧及其底层模型程式码的未经授权的存取。资料治理大概可以分成三种模式,第一种为集中式模型,意即单一资料治理实体监督并标准化组织内所有主题领域的活动;第二是复制模型,指各业务单位独立采用并实施相同的资料治理模型与标准;最后则是联合模型,资料治理机构与多个业务部门协调,以确保整个组织的定义和标准的统一。

要素七:资料编排

资料编排是对不同系统和服务之间的资料流进行系统化管理和协调,它牵涉到自动化资料移动,以确保以适当的格式和位置提供分析和决策的可用性,资料编排确保资料在各个系统之间的无缝整合、协调和流动,并促进人工智慧模型的训练、部署和细化。

AWS、微软和Google这三大超大型企业将在 2023 年占据资料管理市场的总计 52% 的市场份额,并在上述每个细分市场提供领先的服务。值得注意的是,这些公司并未提供最复杂和最受好评的解决方案,但他们提供经济高效且高度整合的服务,这些服务易于为客户扩展,使用者面临着一个重要的选择:他们可以选择来自小型专业公司的多种最佳资料管理解决方案,或者他们可以利用一两个超大规模的便利性和全面的产品,将这些解决方案统一在一个解决方案下提供所有必要的服务。

延伸阅读&电子报订阅连结:

【详细内容请见《北美智权报》358期;欢迎订阅《北美智权报》电子报】