女王大学团队提出AI基础模型评审团方法,有望大幅提升AI研究效率

来源:DeepTech深科技

排版:何晨龙、刘雅坤

近年来,人工智能基础模型(如 GPT-4 等大语言模型)快速发展,对各行各业产生了深远影响。

然而,虽然学术界对这些模型在软件工程中的应用进行了大量研究,但大部分研究主要聚焦于理论层面,很少涉及一线工程师在实际工作中的真实体验和反馈。而这些反馈,往往仅在科技公司发布的行业博客中隐约可见。

这些行业博客通常由顶尖科技公司的工程师和研究人员撰写,分享他们在开发、部署和应用基础模型时的实践经验。

这些博客不仅是科技公司展示技术实力的窗口,还记录了最新技术趋势、解决方案和遇到的挑战。

然而,由于这些内容属于“灰色文献”(即非正式出版物),缺乏系统性的分析,很容易被学术界忽视。

这就好比聆听乐队的录音室专辑,却未能亲临他们的现场演唱会——缺乏的正是那种在一线“现场”工作的真实感受。

基于上述情况,来自加拿大女王大学的研究团队决定转换视角,直接倾听那些实际使用这些模型的工程师们的声音,包括:他们如何在日常工作中应用这些基础模型,他们遇到了哪些具体的挑战和机遇等。这些都是学术研究中难以触及的宝贵信息。

图|李豪(来源:李豪)

日前,相关论文以《软件工程和基础模型:使用基础模型评审团从行业博客中获取的见解》(Software Engineering and Foundation Models: Insights from Industry Blogs Using a Jury of Foundation Models)为题发表在预印本网站 arXiv 上 [1]。

女王大学博士后研究员李豪是第一作者兼通讯作者,加拿大阿尔伯塔大学考尔·保罗·贝泽默(Cor-Paul Bezemer)教授和女王大学艾哈迈德·E·哈桑(Ahmed E. Hassan)教授担任共同通讯作者。

图|相关论文(来源:arXiv)

创新方法:利用基础模型提升技术文献分析效率

为了挖掘这座“宝藏”,该课题组收集了来自 17 家顶尖科技公司(如英伟达、谷歌等)的上千篇行业博客文章。面对海量数据,传统的分析手段显然难以胜任。于是他们提出:为什么不让基础模型自己来做这件事呢?

于是,研究人员创新地提出了“基础模型陪审团”的方法。

简单来说,让多个基础模型协作,对这些博客文章进行自动分类和标注,就像是让 AI 帮人们读懂这些文章。这种方法不仅大幅提升了研究效率,还展示了基础模型在处理大量技术文献上的潜力。

图|研究方法学的概览(来源:arXiv)

该团队在这项研究中共经历了七个重要阶段,从最初的思路调整到最终的成果发布,每一步都深思熟虑,系统化推进。

起初,课题组将目光聚焦于白皮书,因其通常展现公司在基础模型(FMs, Foundation Models)和软件工程(SE,Software Engineering)领域的技术战略。然而深入探讨后发现,白皮书更多用于宣传公司理念,缺乏一线工程师的实际操作经验。

因此,他们转而分析科技公司的技术博客。相较之下,博客内容往往由工程师撰写,贴近真实的技术应用场景,成为研究基础模型赋能软件工程(FM4SE,FMs into SE practices)和软件工程原则赋能基础模型(SE4FM,SE methodologies to FMs)实践的理想数据来源。

为明确研究方向,团队提出了两个关键问题:

(1)业界博客中涉及哪些基础模型在软件工程中的应用?

(2)软件工程原则如何应用于基础模型的开发和部署?这两个问题贯穿研究始终,确保内容紧扣业界需求。

接下来,在数据收集阶段,他们从全球顶尖科技公司的博客中筛选出四千多篇相关文章,涵盖基础模型、软件开发、云计算等领域。

为了保证数据的相关性,引入了“基础模型陪审团”方法,以关键词筛查与人工复核结合,最终锁定了千余篇符合主题的博客文章。这一方法避免了无关信息的干扰,确保数据内容的可靠性。

另外,研究人员面对海量非结构化数据,传统手动标注不仅耗时且容易出错。为此,课题组创新性地提出了“基础模型陪审团”方法,让多个大语言模型协作进行内容分类和信息提取。

每个模型如同陪审员,对内容进行评分与分类,最终以投票形式决定结果。这种方法提升了数据筛选的效率和准确性,使团队能更迅速地聚焦于有价值的内容。

紧接着,在数据标注完成后,该团队深入分析这些信息,发现 FM4SE 领域的热点集中在代码生成和代码理解,而 SE4FM 则主要关注模型部署、系统架构和任务编排。通过这些分析,团队进一步了解了业界在两个方向上的实际需求和技术焦点。

基于这些洞见,课题组提出了未来研究的方向,以期推动学术界与业界的深度结合。

例如,如何利用基础模型进行遗留系统现代化,如何在模型开发中提升性能并优化数据管理等。这些方向不仅为学术研究提供了新思路,也为基础模型的实际应用带来启示。

完成研究总结后,团队还整理并发布了研究成果,希望能为学术界和业界提供实践参考。同时,他们公开了数据与方法,期望其他研究者在此基础上进一步优化和拓展,以更好地应对未来的技术挑战。

推动学术与行业的协同发展:基础模型与软件工程的前景

通过分析这些博客,研究团队观察到两个有趣的趋势。

首先是基础模型对软件工程的赋能。工程师们利用基础模型优化了软件开发的各个流程,不仅包括代码生成,还帮助理解复杂代码、生成代码摘要,以及推荐适合的应用程序编程接口。

这个“智能助手”角色为开发者提供了实用的支持,大幅提升了工作效率,减少了日常开发中的重复性工作。

其次,软件工程的方法也在反过来赋能基础模型的开发和部署。面对资源消耗巨大的大型模型,工程师们探讨如何高效部署和运营这些模型,如何设计灵活的系统架构以支持模型扩展等问题。

他们分享的实践经验包括通过云服务部署模型,或利用模型压缩技术使大型模型可在本地设备上运行,既解决了隐私问题,也显著降低了硬件成本。

这些发现不仅对一线工程实践有了更清晰的理解,也揭示了基础模型与软件工程之间的深度融合。

此次研究成果不仅在学术界产生了显著影响,更在应用方面展现出重要的价值。

首先,这项研究为学术界提供了一份清晰的指南,揭示了基础模型在促进软件工程和软件工程优化基础模型的关键难点。它有助于研究人员更精准地选择研究方向,使学术探索更密切地贴合行业需求。

此外,该团队提出的利用基础模型自动化分析文献的方法,如同为研究人员配备了一台智能文献助手。

在快速发展的科技领域中,这一方法能高效地收集、分类和解读大量非正式文献,为研究人员在海量信息筛选方面提供工具,以显著提升研究效率。

总的来说,该研究展示了同行如何利用基础模型提升代码生成、漏洞检测和模型部署等具体任务。这些经验为开发者优化工作流程提供了新思路,帮助基础模型更好地融入项目实践。

在教育领域,这项研究为课程内容的更新提供了宝贵的参考。教育者们可以通过融入这些前沿知识,培养出更加符合行业需求的新型人才,让学生们在毕业后更快适应基础模型在实际工作中的应用。

基于这一成果,课题组对基础模型在不同领域的潜力充满兴趣,并计划在这一“无人区”深入探索,挖掘更多“宝藏”。

据了解,“基础模型陪审团”方法也在进一步升级中,该团队希望将这把“万能钥匙”打磨得更加精致、高效,并尝试应用于其他领域,以便在未来的技术探索中发挥更大作用。

此外,课题组还期待与企业深度合作,参与真实项目,通过了解开发者在应用基础模型时面临的实际挑战,进而推动这一技术在各个领域的广泛应用。

参考资料:

1.https://doi.org/10.48550/arXiv.2410.09012

阅读最新前沿科技研究报告,欢迎访问欧米伽研究所的“未来知识库”

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。

截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告

接下来,我们将为您逐一展示这100部精选报告的完整标题列表。

1. 牛津大学博士论文《深度具身智能体的空间推理与规划》230页

2. 2024低空经济场景白皮书v1.0(167页)

3. 战略与国际研究中心(CSIS)人类地月空间探索的总体状况研究报告(2024)

4. 人工智能与物理学相遇的综述(86页)

5. 麦肯锡:全球难题,应对能源转型的现实问题(196页)

6. 欧米伽理论,智能科学视野下的万物理论新探索(50页报告)

7. 《美国反无人机系统未来趋势报告(2024-2029 年)》

8. Gartner 2025 年主要战略技术趋势研究报告

9. 2024人工智能国外大模型使用手册+中文大模型使用手册

10. 详解光刻巨人ASML成功之奥妙-241015(94页)

11. CB Insights:未来变革者:2025年九大科技趋势研究报告

12. 国际电信联盟2023-2024年联合国人工智能AI活动报告388页

13. 《人工智能能力的人类系统集成测试和评估》最新51页,美国防部首席数字和人工智能办公室(CDAO)

14. 2024瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

15. MHP:2024全球工业4.0晴雨表白皮书

16. 世界经济论坛白皮书《AI价值洞察:引导人工智能实现人类共同目标》

17. 瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

18. AI智能体的崛起:整合人工智能、区块链技术与量子计算(研究报告,书)

19. OpenAI o1 评估:AGI 的机遇和挑战(280页)

20. 世界知识产权组织:2024 年全球创新指数(326页)

21. 美国白宫:国家近地天体防御策略与行动计划

22. 【CMU博士论文】持续改进机器人的探索,243页

23. 中国信通院:量子计算发展态势研究报告2024年58页

24. 2024年OpenAI最新大模型o1革新进展突出表现及领域推进作用分析报告

25. 【新书】通用人工智能,144页

26. 联合国:《未来契约》、《全球数字契约》和《子孙后代问题宣言》三合一

27. 世界气候组织:2024团结在科学中,守卫地球系统的未来

28. 世界经济论坛 《量子技术助力社会发展:实现可持续发展目标》研究报告

29. 人工智能科学家:迈向全自动开放式科学发现

30. 欧盟:石墨烯旗舰项目十年评估报告

31. 美国信息技术和创新基金会:美国的数字身份之路研究报告

32. 麦肯锡:2024能源转型挑战未来研究报告

33. 联合国贸易与发展会议:2024世界投资报告

34. 兰德:评估人工智能对国家安全和公共安全的影响

35. 兰德:2024评估人工智能基础模型市场的自然垄断条件

36. 经合组织:2015-2022 年生物多样性与发展融资

37. ITIF:中国半导体创新能力研究报告

38. 英国皇家学会:数学未来计划, 数学和数据教育的新方法研究报告

39. 欧盟:10年人类大脑计划创新评估报告

40. GLG格理集团:2024深度解读半导体行业关键趋势和专家洞见报告15页

41. 华为智能世界2030报告2024版741页

42. 联合国:2024为人类治理人工智能最终报告

43. 达信Marsh:2024全球科技产业风险研究报告英文版27页

44. 鼎帷咨询:2024英伟达人工智能发展战略研究报告149页

45. 【博士论文】大语言模型的测试与评价:准确性、无害性和公平性,223页pdf

46. 麦肯锡:2024世界能源产业展望

47. 世界经济论坛《太空:全球经济增长的 1.8 万亿美元机遇》

48. 世界经济论坛:世界“技术先锋”名单100家公司名单

49. 世界经济论坛:2024绘制地球观测的未来:气候情报技术创新

50. 核聚变技术作为清洁能源供应替代来源的全球发展和准备情况

51. 大模型生成的idea新颖性与人类对比研究报告(94页)

52. IQM :2024 年量子状况报告

53. 2024十大新兴技术研究报告

54. 2024地球观测 (EO) 洞察带来的全球价值(58页)

55. 2023-2024世界基础设施监测报告

56. 世界银行:2024世界发展报告,中等收入陷阱

57. 2024国际前沿人工智能安全科学报告132页

58. 斯坦福大学2024人工智能指数报告

59. 美国总统科学技术顾问委员会:《利用人工智能应对全球挑战》63页报告

60. 柳叶刀行星健康:2024地球系统安全与健康评估报告

61. 中国未来50年产业发展趋势白皮书III

62. OpenAI o1系列产品原理与安全最新研究报告(80页)

63. 国家互联网信息办公室:国家信息化发展报告2023年110页

64. 埃森哲:2024年风险研究报告-重大颠覆需要持续重塑英文版39页

65. 36氪研究院:2024年中国城市低空经济发展指数报告41页

66. 美国信息技术与创新基金会:《中国在量子领域的创新能力如何》研究报告

67. 理解深度学习500页报告

68. 鼎帷咨询:2024全球人工智能发展研究报告44页

69. 【伯克利博士论文】大型语言模型迈向能够学习和发现一切的机器

70. 《量子技术:前景、危险和可能性》45页报告

71. 英国皇家学会报告:人工智能在科学、技术、工程和数学领域的应用

72. 未来今日研究所:2024世界技趋势报告(980页)

73. 面向大规模脉冲神经网络:全面综述与未来方向

74. 大模型+知识库市场全景报告

75. 《太空力量的理论基础:从经济学到不对称战争》2024最新94页报告

76. CBInsights:2024年第二季度全球企业风险投资状况报告英文版124页

77. 英国科学院:数据管理和使用:21 世纪的治理(2024),99页

78. 兰德智库:展望2045 一项前瞻性研究探讨未来 20 年全球趋势的影响

79. 世界知识产权组织:2024年世界知识产权报告:让创新政策促进发展

80. 全球灾难风险研究所:评估大型语言模型接管灾难的风险

81. 牛津马丁学院:人工智能风险国际科学评估的未来

82. 联合国贸易和发展署:2024世界投资报告

83. 兰德公司:人工智能军事应用的新风险和机遇

84. 英国皇家学会:AI时代的科学发展趋势研究报告

85. 百页风电行业研究方法论:从中国到世界从陆地到海洋-240902,98页

86. 中国信通院发布《大模型落地路线图研究报告(2024年)》

87. 星河智源:2024年无人驾驶技术全景报告35页

88. 星河智源:2024年光刻机技术全景报告37页

89. 人形机器人行业研究方法论:特斯拉领衔人形机器人的从1到N

90. 兰德:展望2045一项关于未来20年全球趋势影响的前瞻性研究报告英文版45页

91. 《军事创新与气候挑战》2024最新152页报告

92. 麦肯锡:2024困难点:驾驭能源转型的物理现实(196页)

93. 《麻省理工科技评论》万字长文:什么是人工智能?

94. 软件与服务行业:从特斯拉智能驾驶看人形机器人发展路径

95. 中国信通院:中国数字经济发展研究报告2024年82页

96. CB Insights:2024年第二季度全球风险投资状况报告 244页

97. 脑启发的人工智能:全面综述

98. 二十年关键技术跟踪报告

99. 中国首部城市大脑系列建设标准(8项)汇编

100. 麦肯锡2024技术趋势展望报告100页