新研究:57%网络内容 AI 生成,影响搜索且危及 ChatGPT?
随着生成式人工智能的迅速应用,要分辨什么是真实的变得越来越难。从图像、视频到文本,人工智能工具可以说处于巅峰,并且能够依据提示生成复杂的输出。
出版商与这些人工智能工具所属公司在版权侵权相关问题上始终在争斗。尽管 OpenAI 首席执行官山姆·奥特曼承认没有受版权保护的内容就无法创建像 ChatGPT 这样的工具,但版权法并不禁止拿这些内容来训练人工智能模型。
发表于《自然》杂志的一项新研究显示,在线发布的内容里有 57%是由人工智能生成的(通过《福布斯》)。来自剑桥和牛津的研究人员宣称,人工智能生成内容的数量持续增多以及人工智能工具对相同内容的过度依赖,只会导致一个结果——对查询的低质量回应。
依据这项研究,每次尝试后,人工智能对查询的生成响应价值和准确性降低。来自牛津大学的伊利亚·舒迈洛夫博士表示:
“模型崩溃来得如此之快且如此难以捉摸,这令人惊讶。起初,它影响到少数数据——代表性不佳的数据。接着它会影响输出的多样性,并且方差降低。有时,您会观察到多数数据有小幅改进,而这掩盖了少数数据性能的下降。模型崩溃可能会产生严重后果。”
研究人员表示,聊天机器人回复质量的下降是由于人工智能生成内容周期性过量所致。众所周知,人工智能模型依赖互联网上的信息进行训练。因此,如果互联网上的信息是由人工智能生成且不准确的,那么训练就会变得无效,导致生成错误的答案和错误信息。
研究人员决定深入挖掘,试图找出问题的根本原因。首先,这可归因于未经事实核查就在网上大量发布的人工智能生成的文章。该团队使用了一个预先训练的人工智能驱动的维基来进行推断。他们用其输出对该工具进行训练。该团队立即注意到该工具生成的信息质量下降。
该研究进一步指出,尽管这款人工智能工具从一开始就在一个关于犬种的大型信息库中接受训练,但经过反复的数据集训练后,它把罕见犬种排除在自身的知识范围之外。
基于此,随着人工智能的日益普及以及人工智能生成内容在网上的不断发布,搜索结果的质量可能会变差。