硕恩网络取得技能短语抽取方法专利,降低数据预备与算法训练成本

金融界 2024 年 7 月 12 日消息,天眼查知识产权信息显示,上海硕恩网络科技股份有限公司取得一项名为“一种技能短语抽取方法“,授权公告号 CN112036120B,申请日期为 2020 年 8 月。

专利摘要显示,本发明涉及计算机自然语言处理中短语抽取技术领域,具体的讲是一种技能短语抽取方法,首先获取文本内容,对获取的文本进行预处理,即删除文本主题前方带有的数字或者特殊索引符号,然后利用分隔符将文本分割成句子片段,之后构造抽取规则,运行抽取规则抽取技能短语片段,再对抽取的片段进行清洗,删除词语序列中的修饰词等没有实际意义的词语,然后进行分词处理,最后针对分词后的词语序列进行短语构建,形成技能短语。本发明可以应用在非结构化数据中,例如企业招聘等领域,在实施中不需要构建训练集和分类器,降低了数据预备与算法训练成本,能够自动确定技能短语的长度,避免主观性,避免了统计法中阈值选择的难题。

本文源自:金融界

作者:情报员