- 1
- 0
- 约1.45万字
- 约 21页
- 2026-05-25 发布于山西
- 举报
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号CN119598971A
(43)申请公布日2025.03.11
(21)申请号202411443154.8
(22)申请日2024.10.16
(71)申请人上海人工智能创新中心
地址200232上海市徐汇区云锦路701号
37、38层
(72)发明人徐超王斌王莎莎李薇何聪辉
(74)专利代理机构上海科盛知识产权代理有限
公司31225
专利代理师夏健君
(51)Int.Cl.
G06F40/109(2020.01)
G06N5/02(2023.01)
G06F40/151(2020.01)
G06V30/148(2022.01)
G06V30/416(2022.01)
G06V30/412(2022.01)
G06F16/353(2025.01)
权利要求书2页说明书7页附图3页
(54)发明名称
一种基于深度学习和版面分析的PDF提取方
法和系统
(57)摘要
CN119598971A本发明涉及一种基于深度学习和版面分析的PDF提取方法和系统,包括:获取PDF文件,对于扫描版文件和文字版文件分别通过OCR技术和深度学习模型进行元素识别,元素包括文本、图片、表格和公式;根据识别出的元素,将PDF文件的页面划分为多个逻辑块,并确定层
您可能关注的文档
- CN119598941A 芯片版图的器件布设方法、装置、计算机设备及存储介质 (腾讯科技(深圳)有限公司).docx
- CN119598949A 一种光掩模图形数据自动化生成系统及其使用方法 (宁波冠石半导体有限公司).docx
- CN119598954A 存储器ip布局优化的eda软件实现方法及系统 (中科苏州微电子产业技术研究院).docx
- CN119598963A 一种防止在版图中ggnmos误接的检查方法 (中茵微电子(南京)有限公司).docx
- CN119598968A 文本处理方法、装置、电子设备及存储介质 (北京字跳网络技术有限公司).docx
- CN119598974A 用于文档内容识别和智能段落章节拆解的方法及系统 (杭州微宏科技有限公司).docx
- CN119598979A 一种基于元模型的量值数据数字化表示方法 (中国计量科学研究院).docx
- CN119598980A 跨格式文档自动转换为Markdown文档的方法、装置及表单增强方法、系统 (中国联合网络通信集团有限公司).docx
- CN119598990A 基于文书生成模型的案件信息处理方法及系统 (丽水市公安局).docx
- CN119599012A 一种基于大语言模型的作文评分提示词优化方法 (福建理工大学).docx
原创力文档

文档评论(0)