技术创新助力AI更“懂医”

对于医学领域的自然语言文献,例如医学教材、医学百科临床病例医学期刊入院记录检验报告等,这些文本中蕴含大量医学专业知识和医学术语。将实体识别技术与医学专业领域结合,利用机器读取医学文本,可以显著提高临床科研效率质量,并且可服务于下游子任务。但要想让机器“读懂”医学数据核心在于让计算机在大量医学文本中准确的提取出关键信息,这就涉及到了命名实体识别、关系抽取等自然语言处理技术。

日前,腾讯天衍实验室获得了中文医学信息处理评测竞赛“中文医学文本命名实体识别”赛道冠军、“中文医学文本实体关系抽取”赛道亚军

据了解,命名实体识别和关系抽取是信息抽取的两大核心任务。命名实体识别旨在抽取所需实体,以医疗领域为例,需要从非结构化医学文本中找出医学实体,如疾病症状过程;实体关系抽取则需要同时提取出医学实体及实体间的关系信息,即实体关系三元组

在医疗领域,电子病历生物医疗文献中存在大量的非结构化文本,采用信息抽取技术对医疗文本进行结构化,提取其中的疾病,症状,部位等实体,并对实体之间的关系进行判断,进而利用这些信息构建医疗知识图谱,不仅有利于人工智能更好地学到领域内的专业知识,更进一步提升导诊、辅诊、疾病预测等下游医疗任务的性能

如在AI导诊场景中,当用户输入主诉,AI导诊小程序可以返回推荐科室。用户主诉中可能包含多个症状,不同症状的时间、部位、严重程度病因诱因可能对应不同的疾病,通过关系抽取技术,可以捕捉到不同症状的具体属性,从而有助于更精准的疾病预测和科室推荐。