拒绝“劣质”训练数据,MIT研究团队推出数据集审查工具DPExplorer

最近,麻省理工学院(MIT)研究团队及其合作者在科学期刊 Nature Machine Intelligence上,以 “A large-scale audit of dataset licensing and attribution in AI” 为题,发表了一篇研究论文。

论文中,研究团队宣布开发了一个名为 “Data Provenance Explorer” (简称:DPExplorer)的结构化审查工具,过自动生成详细的数据来源卡片,帮助人工智能从业者选择更适合其大模型的训练数据,以便提高大模型准确性、减少偏差。

研究过程中,研究团队对1,800多个文本数据集进行了系统审查,发现约70%的数据集缺乏必要的许可信息,50%的数据集包含错误信息。通过DPExplorer这一工具,研究团队将无法验证的信息从72%降至30%,明显降低了数据的偏差,有效提高了数据的可追溯性和透明度。

有观点认为,该研究为大模型的训练提供了更可靠的数据基础,在推动 AI 领域的法律和伦理研究方面迈出了关键一步。

去年10月,来自麻省理工学院(MIT)、Cohere for AI以及其他11个机构共同发布了Data Provenance Platform(数据溯源平台),旨在解决AI模型训练数据集的来源和使用透明度不足的问题。

数据是人工智能三大要素之一。随着人工智能的兴起,大量数据标注公司涌现,以满足日益增长的市场需求。然而,正确性和真实性关系到大模型训练的质量,甚至能力水平,所以不可忽略。