蚂蚁发起“隐私革命”
AI加快了整个行业迈向数据密态时代。
7月5日,在2024年世界人工智能大会上,蚂蚁集团推出了蚂蚁密算公司的第一款产品——“隐语Cloud”大模型密算平台。
据蚂蚁密算CEO王磊介绍,“隐语Cloud”大模型密算平台主要提供两个能力,分别为大模型密态托管和大模型密态推理。
密态托管主要是解决大模型本身IP保护的问题,当大模型在云上部署的时候,大模型会被加工成密态的,确保模型IP不会被别人偷去。大模型密态推理主要解决的是访问信息的保护,访问信息在整个的推理过程中都是密态的。
当下,高质量数据供给和安全流通,成为大模型进入垂直产业应用的首要挑战。大模型在垂直行业应用时,许多企业通过私有化部署来应对数据安全挑战,这不仅增加企业的运维和服务成本,也影响对外服务的效率和质量。
专业数据通常分布在不同机构和企业,因其高价值和保密性而难以共享。同时,企业、大模型厂商和用户之间存在信任障碍:企业担心数据泄露,厂商担心模型资产安全,用户则担心个人隐私风险。
王磊透露,隐语Cloud平台将提供全链路数据安全服务,覆盖大模型从构建到服务的全过程。平台将为大模型的预训练、微调、评测、推理和用户交互提供密态计算,确保数据在提供方、使用方之间的安全流转。此外,平台还将提供包括密态检索、提示词和流程编排在内的全链路开发工具。
蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬认为,数据供给决定了大模型应用能力的上限,而隐私计算技术决定了数据跨域供给的上限。当大模型从通用走向专业应用,从技术想象力走向产业的生产力,必须要解决高质量数据集稀缺与专业数据阻滞的挑战,否则大模型作为“智力引擎”,只会陷入空转。
5月底,蚂蚁集团宣布了以AI和数据技术为核心的科技战略,并成立了浙江蚂蚁密算科技有限公司,将提供密算相关的产品和服务,包括一套端到端的数据安全保障、一套软硬件结合的计算加速解决方案和一个隐私计算云服务平台,推动数据安全可信的跨云跨端低成本流通。
以下是华尔街见闻与蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬和蚂蚁密算CEO王磊的对话实录(经编辑):
提问:如何看待成本、安全和性能之间的关系?
王磊:安全一定是有成本的,这本质上包含两个方面:首先,从商业视角看,隐私计算技术带来的安全收益是否足够抵消成本。例如,在数据泄露事件中,我们观察到的损失动辄数百万美元,因此,如果安全措施的成本低于潜在损失,那么这些措施就是可接受的。其次,从技术角度出发,随着技术的不断迭代,相关成本将逐步降低。此外,隐私计算产品需要根据安全需求进行分级,对于价值不是非常高的数据,不必采用高成本的安全防护措施。在对数据进行安全分级的基础上,技术措施也应相应分级。当数据的价值与其安全措施的成本相匹配时,这样的安全策略才是最经济、最合理的。
提问:如何理解在加入密态计算流程后,服务成本反而降低的情况?此外,加入密态计算似乎增加了一个步骤,这将如何影响整个数据流通的效率,是提高还是降低?
韦韬:单纯看技术链路肯定是成本更高,但从整个全链路来看,综合考虑人为因素、技术因素和合规因素等,实际上总成本是更低的。明文计算虽然在初期看似简单,但一旦发生数据泄露,将会带来巨大的损失,包括商业利益的损失和法律风险等。密态计算的研发将引发一场变革。目前,许多数据源方由于担心数据泄露,不敢轻易共享数据。密态计算技术能够使这些原本无法流通的数据得以安全流通,从而充分发挥数据的价值。
提问:随着大模型的问世,人们普遍关注算力速度和价格这两个问题。近两年,许多独立的隐私计算厂商发现生意越发难做。在我们的策略或方法中,当应用到具体的业务场景时,客户通常在哪些方面会采用密态计算?
韦韬:在过去两年中,隐私计算行业进行了大量尝试,主要处于所谓的"桶装水"阶段,实现了点对点的连接。PSI(隐私计算求交)是目前应用最广泛的技术之一,它允许两个机构在保护各自用户隐私的前提下,进行用户群体的交集计算。虽然这种技术在验证单个环节方面表现良好,但其应用范围相对有限,尚未实现数据流转的全链路保护。
在整个研发过程中,数据源方对于数据泄露的担忧仍然很大,这一问题尚未得到有效解决。当前的技术应用在深度和广度上都还不够。如果将"桶装水"阶段的技术扩展到大规模应用,成本将会非常高,而且整个流程缺乏一致性的保障,风险也未能得到有效控制。
王磊:隐私计算商业化之所以不再那么热门,主要有以下两个原因:首先,隐私计算技术目前主要适用于小规模应用,且成本高昂,难以实现规模化,这导致了成本难以降低。只有扩大规模,成本才有望降低。其次,传统的商业模式主要是销售软件,这种高成本的交付模式并不利于隐私计算技术的应用和推广。隐私计算的最终目标是促进数据的安全流通。
我们成立新公司后,也在深入思考这个问题。一方面,我们计划采用云化模式,包括即将推出的隐语Cloud等系列产品。我们认为,只有通过云服务,数据才能真正实现大规模流通,并应用于更复杂的场景,从而实现规模化并降低成本。同时,我们也将在端侧推出相关产品,实现端云协同。
另一方面,我们希望建立一种对结果负责的商业模式。这意味着在数据流通的整个过程中,我们能够确保数据安全,从全链路的角度降低成本和法律风险。我们希望在这个过程中持续获得收益,因为数据价值得到了保障,从而从数据价值中获得利润。
我们希望引入保险公司,它能够起到两个作用:一是作为独立第三方,在事前对产品安全性进行评估,提供数据安全保险;二是在发生不可预见的黑天鹅事件时,提供事后保障。通过这个方式推动整个的产业良性地运作起来。这样的机制将促进整个产业的良性运作。只有商业模式健康运转,技术创新和迭代才能持续健康发展。
提问:在过去几年中,市场上普遍认同了隐私计算技术的重要性,但在技术层面,对其是否为一项必不可少的技术存在分歧。一些专家指出,尽管隐私计算的成本较高,但可能存在性价比更高的替代技术。隐私计算要获得市场机构的广泛认可,是否真的存在迫切的需求?它还需要克服哪些障碍?
韦韬:隐私计算技术的发展轨迹与光伏产业颇为相似。光伏技术刚推出时成本高昂,不可能立即普及到所有行业。然而,随着高需求行业率先采用并推动规模化生产,成本逐渐降低。当光伏发电成本降至与煤电相当的临界点时,它便开始得到广泛应用。
隐私计算同样遵循这一模式,它将首先在高价值数据和场景中得到应用。尽管隐私计算解决的问题并非仅限于高价值数据,但当前数据泄露问题已经非常严重。许多机构的数据在暗网上被交易,造成严重后果。然而,这只是冰山一角,国内黑产的大量数据交易已经不仅限于暗网,这是一个非常危险的现象。数据泄露正在大规模发生,对社会造成巨大伤害,而传统技术路径无法有效保障数据安全。
当高价值数据和场景的行业首先建立起隐私计算体系,并实现规模化以降低成本时,它将能够服务于更多行业。我们认为,每个行业场景的临界点是隐私计算的成本降至数据流通价值的5%左右,这将实现规模化推广。
王磊:我也补充一下,先讲一个概念,我们经常提到密态计算,虽然现在不再提及隐私计算,但隐私计算仍是行业的认知。我们之所以转向密态计算,并非为了炒个新的概念。在大家的印象中,隐私计算更多是基于多方安全计算和联邦安全学习两方做融合,融合的过程中增加保证参与者之间互相不能够窃取到数据。其实在数据大规模流通过程中,很多应用场景并不是这个。
举个很现实的例子,现在公共数据开放面临什么风险?数据要放到外网做开放,这里面可能不涉及到数据融合,但有巨大的风险,这是他们不敢开放的原因。例如,将政务内网的数据转移到外网平台时,如何确保数据的安全性?即使运维公司是可信的,运维人员是否也同样可信?他们是否可能通过拆卸硬盘或其他方式轻易地窃取数据?此外,在数据加工和使用过程中,即使是有正常权限的人员,也可能存在数据泄露的风险。
所以有很多的真正有价值的数据是不敢开放的,一直讲开放,一直很难开放。密态计算通过密态的方式确保运维者没有办法窃取到数据,让数据真正的开放流通起来。
隐私计算之前只应用到整个数据流通当中的一小环节一小部分环节,当数据真正大面积流通,我需要做到多方数据融合。我们认为密态计算是下一代的隐私计算,希望解决数据更大规模流通中遇到的真正问题。