Scale AI:从数据标注,到AI应用落地
文|许英博 陈俊云 刘锐 杨泽原 中信证券研究
Scale AI是美国人工智能数据标注领域的独角兽。公司成立于2016年,最初业务为AI数据标注外包,逐渐拓展为企业级数据集成商,协助客户进行AI开发和部署。公司客户亦由B端企业逐渐扩展至G端。2021年以来,公司估值从73亿美元,显著提升至138亿美元,增幅近90%。2024年,公司年化收入(ARR)已超10亿美元,而2018年仅为1700万美元,2018-2024年CAGR超100%。我们认为,公司的商业模式转变,以及快速增长的营收和估值表明,生成式人工智能浪潮正在重构企业的数据需求和软件应用形态。高质量数据对AI应用效果至关重要,尤其在自动驾驶、金融、医疗等专业性较高的垂直领域。此外,AI亦给北美原有高度专业化细分的数据服务产业链带来变化,甚至最终彻底重构软件和数据服务产业链。这一变化,将给软件和数据产业链带来中长期的新的投资机遇,相关机遇亦值得中国软件行业借鉴。
▍报告缘起:为什么我们认为Scale AI值得重视?
1)Scale AI早期主要业务系为自动驾驶公司提供数据标注外包服务,在2022年后与OpenAI等合作,逐步转型为以数据标注和治理为核心的AI基础设施公司,从数据标注逐步拓展至以其企业级数据平台为基础为政企客户提供从AI数据治理到生成式AI应用的落地部署和商业闭环的全流程服务,这一商业模式帮助客户解决了在垂类细分场景下数据质量差、AI应用难以落地的问题,整体提升了下游AI应用的落地速度和迭代节奏。
2)根据The information报道, Scale AI的年化收入从2018年的1700万美元快速上升至2023年的约7.6亿美元,5年CAGR达到113%。至2024年5月,公司的ARR(年化收入)已经突破10亿美元,且几乎完全来源于AI相关的数据业务。公司估值同样快速上升,由2021年的73亿美元上升至2024年5月F轮融资时的138亿美元,增长超过89%。在全球AI相关公司中,除算力产业链以及基座模型相关公司(如Open AI、Anthropic等),Scale AI的营收和市值规模首屈一指。
3)我们认为,公司营收和市值规模在过去三年内快速增长,体现出在AI产业链环节中,数据产业对于AI应用大规模落地的重要性正逐步被行业和市场所认知。
▍公司商业模式解析:从数据标注外包商向数据集成商转变。公司以高质量数据标注为核心,并以此为基础为B端和G端客户提供一站式的AI应用落地部署服务。
1)公司早期业务系为自动驾驶企业提供数据标注外包服务,从2020年起,随着Scaling Law下大模型参数规模的快速膨胀及所需训练数据量的上升,Scale开始与OpenAI进行合作,为其提供大规模数据标注服务。在该过程中,公司将自己在数据标注业务中的know-how沉淀于其数据引擎平台上,结合AI标注能力,更高效地为客户完成其业务数据的分类、标注和标准化治理。
2)公司从数据标注外包服务商拓展为企业级数据集成商,通过企业级AI数据平台为客户打通AI数据全链路服务,加速客户AI应用开发和部署节奏。Scale并不提供大模型产品,但在标注处理完客户的私有数据后,Scale AI可以为客户比较和测试第三方公司提供的主流大模型(如Google、Anthropic、OpenAI),并通过客户数据对大模型进行微调,最终结合客户的具体使用场景将大模型进行落地部署。公司的AI平台可以帮助没有能力选择相关技术供应商的客户完成AI应用落地所需的技术工作及相关供应商的选择。
3)数据质量对AI在垂类场景落地重要度提升,绑定核心标注人员构筑公司竞争壁垒。对于专业场景而言,通过RAG方法对模型进行微调需要高质量垂类数据,而垂类数据的标注对于精准度和专业性有一定要求。Scale雇佣了数十名相关领域的博士进行数据标注,并借此机会与拥有专业数据标注能力的相关人员进行了绑定,通过和重要行业客户的合作完成了行业知识的积累。
4)公司业务由B端向G端衍生,G端落地速度快。公司积极与美国多个政府部门进行合作,2022年,公司与美国国防部签订订单,单笔金额达到2.5亿美元,公司为美国政府与军方提供了大模型测试与评估、多诺万AI平台、开源数据集评估等多项服务。公司的多诺万AI平台接入了美国军方的数据源,并通过该平台对军方收集的战场图像进行标注。在获取数据后,公司在该平台上通过调用并微调第三方模型完成私有数据集上的大模型训练,进而通过微调模型对军方实时提供的战场图片进行判读、毁伤评估和态势感知,大幅提高了军方对战场情报的分析效率和反应速度。
▍公司当前情况:经历7轮融资,头部大厂进行背书。
1)公司目前经过7轮融资,历史总融资额超16亿美元。公司E轮及之前融资主要以Y Combinator为代表的财务投资者为主。公司最近一轮融资为2024年5月份的F轮融资,包括Meta、英伟达在内的头部科技公司共计为Scale AI注资达10亿美元。
2)除融资外,公司同样在业务上与头部大厂达成了深度合作关系。Scale AI自2019年开始与Open AI进行合作,并深度参与了GPT-2及以后GPT模型的数据标注工作。Open AI同时将Scale视为优先合作伙伴,优先推荐企业客户使用Scale提供的微调服务。我们认为,头部科技公司主导的产业资本对Scale AI的投资与Scale AI估值水平的快速上升或反映出AI数据基础设施产业或成为AI行业下一阶段的重要发展方向。
▍Scale AI的经验与借鉴:数据标注业务产业链价值提升,北美数据产业融合发展趋势明显。
1)在Scaling Law的行业趋势下,大模型迭代所需的算力以及对应用于训练的数据均呈现指数级增长。以Open AI为例,从GPT1-GPT3,其模型参数规模在2018-2020年由1.17亿个增长至1750亿个,训练数据集由4.5GB指数级增长至570GB,GPT4约为1PB。根据Epoch AI的预计,全球的公开高质量文本数据将在2027年耗尽。特定企业内部则拥有庞大的私有数据集,以金融业为例,根据SaaStr网站主持人Harry Stebbings对Scale AI创始人 Alex Wang的访谈,摩根大通内部拥有约150PB的专有数据集,但数据因未经清洗和加工,较难为大模型使用。同时,在特定任务领域,例如医疗、金融风控等场景,经过专业人员逻辑性标注的专业数据可降低模型出现幻觉的概率和提高模型准确度。在该种趋势下,我们看到用于AI训练和推理的垂类数据标注的难度和产业价值均在提升。
2)从数据产业链的角度来看,北美数据产业链正从高度分工的业态趋于融合发展。数据软件本身的功能边界趋于模糊,同时各赛道龙头公司通过内生发展或并购方式向产业链各环节进行衍生,以Palantir为代表的数据集成商公司成长显著。我们认为这一产业趋势的背后是B端客户对于以AI为核心的数智化转型存在明确诉求,而该种转型需要企业完成自己内部的数据治理、数据分析平台、数据湖仓等环节的构建,但单一企业很难拥有该种技术能力。因此,从数据本身的数量、质量和管理等方面考量,专注于帮助企业完成AI从数据到应用落地的数据产业集成商的出现是中短期内的产业发展趋势。
▍投资策略:
参考美国产业发展经验,我们认为率先沉淀出平台能力的数据公司有望把握先发优势,构建长期壁垒,建议关注国内相关映射概念标的。国内当前以AI为对象的数据产业发展尚在早期。对于国内数据产业而言,我们认为相关公司将逐步从集成制、项目制的公司向垂类领域进发,率先锁定垂类领域的相关专家、客户,并能够通过垂类项目经验沉淀出平台能力的公司将持续受益。建议关注国产数据治理概念及数据平台型公司。
▍风险因素:
全球地缘政治冲突的风险;细分市场需求走弱的风险;数据平台开发进度不达预期的风险;行业竞争加剧的风险;AI下游发展不及预期的风险;云厂商Capex投入不及预期风险;核心客户流失风险;核心管理人员流失风险;推荐公司业绩不达预期的风险;推荐公司产品研发进度不及预期的风险;推荐公司的客户AI相关IT开支意愿波动的风险。
本文源自:券商研报精选