- 7
- 0
- 约1.78万字
- 约 17页
- 2023-05-17 发布于四川
- 举报
本发明涉及深度学习技术领域,提供一种PDF中表格信息的抽取方法和系统。方法包括:获取PDF文件,并识别文件中包括表格的图像页;分割图像页得到多个表格单元,输入运行表格结构识别模型,得到目标序列;将表格单元的文本识别结果整合至根据目标序列中,得到html代码形式的表格抽取结果。本发明通过基于图像分割得到的表格单元进行表格结构框架识别,即采用多示例学习训练得到的模型进行表格结构框架识别,能够更为有效、精准地识别抽取PDF中的表格信息;同时,基于html序列的表格结构框架输出格式更为契合多示例学习训练
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 114821613 A
(43)申请公布日 2022.07.29
(21)申请号 202210342716.4
(22)申请日 2022.03.31
(71)申请人 灵犀量子(北京)医疗科技有限公司
地
您可能关注的文档
最近下载
- 2025年淄博市沂源县小升初数学秋季入学摸底测试卷(含答案).doc VIP
- 建筑装饰设计收费标准完整版(最新).docx VIP
- 四川省《信息技术》学业水平考试复习考纲说明及重点归纳(代老师提供精品.pdf VIP
- Zobisbored教学设计_原创精品文档.pdf VIP
- 白天鹅酒店管理实务.pdf VIP
- SFE架式脚踏封口机使用说明书.pdf
- 2025年黑龙江省大庆市地理生物会考真题试卷+答案.docx VIP
- 小学语文-四升五语文暑假衔接讲义.pdf VIP
- 2026云南曲靖市沾益区珠源百人引才工程青年人才专项引进20人考试备考试题及答案解析.docx VIP
- 阀门试压试验记录.doc VIP
原创力文档

文档评论(0)