大模型助力学术图谱挖掘!OAG-Challenge @ KDD Cup 2024正式开始

如何用大模型推动学术知识图谱挖掘任务?OAG-Challenge @ KDD Cup 2024 邀你来赛!

竞赛网址:

https://www.biendata.xyz/kdd2024/

竞赛背景

自 1997 年创办以来,知识发现和数据挖掘会议 ACM SIGKDD 上举办的 KDD Cup 被誉为全球最具影响力和最受欢迎的数据挖掘竞赛之一。KDD Cup的主题覆盖了众多领域,包括社交网络、大气科学、城市计算、电子商务等。参赛者需要运用数据挖掘和机器学习技术,从大规模数据中发掘规律和模式,以寻找有效的解决方案。

KDD Cup 预计将持续约 3 个月,获奖者将在 KDD 会议开幕式上接受颁奖,并在会议期间的 KDD Cup Workshop 上展示他们的解决方案。

赛题背景

学术数据挖掘的最终目标是加深我们对科学的发展、本质和趋势的理解,从而发掘科学、技术和教育的巨大价值和潜能。例如,从学术数据中进行深度挖掘可以协助政府制定科学政策,支持公司人才发现,并帮助研究人员更高效并有效地获取新知识。

学术数据挖掘包含很多以学术实体为中心的应用,比如论文检索、专家发现和期刊推荐等。然而,学术知识图谱挖掘相关的数据基准的缺乏严重限制了该领域的发展。

在KDD Cup 2024,清华大学、智谱AI 联合 Biendata推出 Open Academic Graph Challenge (OAG-Challenge),这是一个由三个现实而具有挑战性的学术任务组成的赛题,旨在推进学术知识图谱挖掘领域的发展。

赛题介绍

OAG-Challenge 目前包括三个任务,旨在评估学术图谱挖掘的不同侧面,试图涵盖学术图谱挖掘领域的代表性任务。首先,我们确定了学术图谱构建过程中有价值且具有挑战性的任务,例如作者姓名消歧(Author Name Disambiguation, AND)。其次,基于构建的学术知识图谱,学术应用关注用户的知识获取和知识之间的认知关联,例如学术问答(Academic Question Answering, AQA)和论文源头追溯(Paper Source Tracing, PST)。

赛道1:

同名消歧错误检测(WhoIsWho-IND)

问题定义:给定每个作者的论文列表和论文元数据,目标是检测每个作者档案中错误分配给该作者的论文。

赛道2:

学术问答 (AQA)

问题定义:给定专业问题和候选论文库,目标是检索最相关的论文来回答这些问题。

赛道3:

论文源头追溯(PST)

问题定义:给定每篇论文的全文,目标是自动追溯启发给定论文的最重要的参考文献(命名为“源头论文”)。

竞赛日程

2024年3月20日:KDD Cup 2024 正式开始

2024年5月31日:组队截止日期

2024年5月31日:公开测试集数据。所有参赛者将有7天的时间提交结果。

2024年6月7日:所有赛道提交截止

2024年6月14日:宣布 KDD Cup 2024 获奖者名单

奖金

每个赛道的奖金均为 10000美元。

第一名:3000美元

第二名:2000美元

第三名:1000美元

第四至第十一名:500美元

大模型和API使用

所有赛道均允许使用比赛结束前已开源的预训练模型。

同名消歧错误检测和论文源头追溯任务允许使用 API。在完成一次验证集的有效提交后,每个参赛队伍可以获得 GLM-4 API 100万 Token 的免费额度。

由于学术问答数据集是从公开问答平台收集的,该任务不允许使用 API。