《经济学人》文章预警AI数据迎来枯竭  训练数据困境如何破局

21世纪经济报道记者 王俊 实习生 刘欣 北京报道

大模型时代,得数据者得天下。高质量训练数据是大模型的原材料,也是大模型技术突破的关键。大模型的训练数据会不会耗尽?一直是业内关注的焦点。

近期,经济学人杂志发布了一篇题为《AI 公司很快将耗尽大部分互联网数据》(AI firms will soon exhaust most of the internet's data)的文章,引发了全球对AI行业数据资源可持续性的担忧。文章援引研究公司Epoch AI的预测,他们预测互联网上可用的人类文本数据将在四年后,即2028年耗尽。

训练数据匮乏似乎已经成为AI行业的一个梦魇,如何有效、持续供给高质量数据,成为行业发展的必答题。

获得高质量数据成本和难度逐渐增加

训练数据是构建和优化 AI 模型的基石,数据是大模型成长的基础和驱动力,大模型依赖着数据进行学习和优化。

零一万物联合创始人黄文灏曾在北京智源大会上表示,在自己加入零一万物的前三个月,团队几乎没有进行模型训练,大部分时间都用来做数据处理的相关工作。“在数据足够ready(准备充分)的情况下,我们发现模型基本一次就能训练出来,而且在同等参数的情况下会比其他有效训练的效果更好。”

“数据质量和数据量将是下一阶段大模型能力涌现关键中的关键。”中信智库专家委员会主任、中信建投证券研究所所长武超在2023世界人工智能大会(WAIC)上分享了一个测算,“未来一个模型的好坏,20%由算法决定,80%由数据质量决定。接下来高质量的数据将是提升模型性能的关键。”

尤其是高质量的训练语料,对于提升模型准确度的作用可能比单纯增加模型参数更为显著。通过不断增加高质量的训练数据,可以在不大幅增加推理成本的情况下,提高模型的性能和质量。

足够多的高质量数据是训练出性能优越AI模型的关键,但当前却面临着“高质量数据告急”的情况,大模型训练数据的问题亟待解决。依据Epoch AI的预测,训练数据的数量问题已经不容忽视。

此外,据报道,目前我国仍有大量专业领域的信息数据处于相对封闭的状态,只能在机构内部的数据库和图书馆查看,数据缺失使大模型存在一定的领域盲区,开发潜力不足。

尤其是要落地垂直场景的大模型,必须搭配高质量的行业数据,但目前行业数据存在碎片化、分割化的问题。

合成数据成为“新物种”受关注

为了应对大模型训练数据的问题,合成数据成为业内解困的新思路。

相比于从现实世界中采集或测量的真实数据,合成数据顾名思义是人工合成的“假”数据。由于能够反映原始数据的属性,合成数据可以作为原始数据的替代品来训练、测试和验证AI模型。

但人工合成并不意味着完全凭空捏造。现阶段,大部分合成数据的“根”仍然是真实数据。

经济学人的该篇文章中,介绍了ImageNet的创建和LLM的自我监督训练,强调了数据质量和数量的平衡,随着互联网高质量数据的枯竭,AI领域面临“数据墙”,需要通过提高数据质量、使用合成数据和后期训练等方法来解决。

近年来,随着人工智能技术一次次取得突破性发展,真实数据的采集、获取难度也水涨船高,已难以填饱AI训练的庞大“胃口”,合成数据常常作为真实数据的“平替”而存在。

尽管现阶段在预训练占比不高,但不少业内人士认为其未来发展潜力巨大,可作为一个“新物种”密切关注。目前合成数据多应用于提升对齐阶段的数据获取效率,增强模型安全和可靠性。

去年人工智能初创公司Cohere首席执行官Aiden Gomez就透露,由于Reddit、推特等公司的数据采集要价太高,微软、OpenAI和Cohere等公司,已使用合成数据来训练AI模型。Gomez表示,合成数据可以适用于很多训练场景,只是目前尚未全面推广。

英国金融行为监管局(Financial Conduct Authority,FCA)也积极跟进合成数据作为一项隐私保护技术在金融行业的应用前景。

我国也开始鼓励和引导合成数据产业的发展。2023年3月初,中国证监会科技监管局局长姚前曾在《中国金融》杂志撰文称,建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。

在北京发布的“北京市通用人工智能产业创新伙伴计划”,提到谋划建设国家级数据训练基地,也提出了支持发展基于AIGC技术的合成数据新产业。

“国家队”入场解数据供给之困

除却合成数据的办法,公共数据的进一步开放共享也被视为一条行之有效的路径。

高质量的公共数据将极大赋能生成式人工智能。兴业证券报告指出,加强公共数据的开放开发,是当前解决数据分散、提升训练数据质量的重要举措。

据21记者不完全统计,北京、上海、深圳等地已发布多份文件,力图解决AI训练数据供给之困。比如,去年6月发布的《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023-2024年)》就提到,要搭建全市公共数据开放运营平台,建立多模态公共数据集,打造高质量中文语料数据等。

2023年7月13日,国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局联合公布《生成式人工智能服务管理暂行办法》,其中指出要推动生成式人工智能基础设施和公共训练数据资源平台建设;促进算力资源协同共享,提升算力资源利用效能;推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源。

就在前不久,7月22日在国务院新闻办公室举行的“推动高质量发展”系列主题新闻发布会上,国家数据局数据资源司司长张望也强调要促进公共数据资源的开发使用。