人工智能编程助手竟让代码错上加错!

生成式人工智能的支持者声称,该技术能够让人类工作者的生产力更高,特别是在编写计算机代码方面。

但真的是如此吗?

最近由编码管理软件企业 Uplevel 所进行的一份报告 ,首先由 IT 杂志 CIO发现,表明使用 GitHub 热门的 AI 编程助手 Copilot 的工程师在效率方面未取得任何显著的提升。

该研究称,要说的话,使用 Copilot 会导致无意中输入到代码里的错误会增多 41%。

在这项研究中,Uplevel 在 800 名开发人员获得 Copilot 之前对他们的表现进行了三个月的跟踪。在他们获得 Copilot 之后,Uplevel 又对他们跟踪了整整三个月。

要衡量他们的表现,Uplevel 查看了开发人员把代码合并进存储库(也就是拉取请求)所耗费的时间,以及他们提交请求的数量。

Uplevel 发现:‘Copilot 在样本中既未帮到也未伤到开发人员,而且也没提高编码速度。’

“我们团队的假设是,我们认为公共关系处理的周期时间会缩短,”Uplevel 产品经理兼数据分析师马特·霍夫曼告诉CIO。 “我们认为他们能够编写更多代码,而且我们实际上认为缺陷率可能会下降,因为您在推出代码之前使用这些生成式人工智能工具来帮助您审查代码。”

当您意识到 GitHub Copilot 以大型语言模型(LLM)为中心时,所有这些信息就不那么令人惊讶了,这些模型往往容易产生错误信息的错觉并输出不正确的数据。

最近,由德克萨斯大学圣安东尼奥分校的研究人员领导的另一项研究发现,大型语言模型能够生成大量的“虚幻数据包”,即“推荐或包含对不存在的文件或代码的提及”的代码。

科技领袖们开始担心,使用人工智能生成的代码最终可能实际上会带来更多的工作。

“理解和调试由人工智能生成的代码变得愈发具有挑战性,故障排除耗费的资源如此之多,以至于从头重写代码要比修复它来得容易,”软件开发公司 Gehtsoft 的首席执行官伊万·格赫特告诉CIO。