北京火山引擎申请一种文档识别方法专利,极大提升文档识别的准确性

金融界2024年10月24日消息,国家知识产权局信息显示,北京火山引擎科技有限公司申请一项名为“一种文档识别方法、装置、设备及介质”的专利,公开号 CN 118799910 A,申请日期为2024年6月。

专利摘要显示,本公开实施例涉及一种文档识别方法、装置、设备及介质,其中该方法包括:获取目标文档图像;提取目标文档图像中文档元素的位置和文字内容;对目标文档图像、文档元素的位置和文字内容进行特征处理,得到多模态特征;基于多模态特征进行处理得到目标文档图像对应的目标文档内容,其中,目标文档内容包括按照阅读顺序排序的文档元素对应的文字内容。本公开结合目标文档图像、文档元素的位置和文字内容进行特征处理得到的多模态特征通过阅读顺序模型可以还原文档内容该文档内容包括按照阅读顺序排序的文档元素的文字内容,实现了利用多模态特征按照阅读顺序还原图像对应的文档,尤其涉及到复杂场景,极大提升文档识别的准确性。

本文源自:金融界

作者:情报员