百度发布“千言”计划 未来3年共建100个NLP数据集

8月25日百度大脑语言与知识技术峰会在线上召开,百度联合中国计算机学会、中国中文信息学会共同发布“千言数据共建计划。同时,百度技术委员会主席吴华发布了算力共享计划,希望通过数据集的共建与算力的共享,与学界产业界共同推进技术进步。

据了解,“千言”项目第一期已涵盖7大任务、20余个中文开源数据集,由百度携手哈工大清华中科院信息工程研究所等在内的10所顶级高校企业共同建设完成。

截至目前,第一期千言项目已涵盖了7大任务、20余个中文开源数据集,包括开放域对话、阅读理解、机器同传、情感分析语义解析、信息抽取和文本相似度等。

吴华表示,在未来3年中,千言计划面向超20个任务,收集和建设不少于100个中文自然语言处理数据集,覆盖多个领域