CN119598974A 用于文档内容识别和智能段落章节拆解的方法及系统 (杭州微宏科技有限公司).docxVIP

  • 2
  • 0
  • 约2.64万字
  • 约 45页
  • 2026-05-23 发布于山西
  • 举报

CN119598974A 用于文档内容识别和智能段落章节拆解的方法及系统 (杭州微宏科技有限公司).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119598974A

(43)申请公布日2025.03.11

(21)申请号202510142591.4

(22)申请日2025.02.10

(71)申请人杭州微宏科技有限公司

地址310020浙江省杭州市上城区城星路

69号中天国开大厦9F

(72)发明人王民韩彤俞哲峰

(74)专利代理机构浙江永鼎律师事务所33233

专利代理师周希良

(51)Int.Cl.

G06F40/117(2020.01)

G06F40/157(2020.01)

G06F40/18(2020.01)

G06F40/258(2020.01)

权利要求书5页说明书12页附图11页

(54)发明名称

用于文档内容识别和智能段落章节拆解的

方法及系统

(57)摘要

CN119598974A本发明属于数据处理技术领域,具体涉及用于文档内容识别和智能段落章节拆解的方法及系统。方法包括:S1,将PDF文档拆分成页,并转换成图片;S2,对拆分后的PDF页进行DOM结构分析,获得文本字符集合;S3,对PDF页图片进行版面分析,获得版面区域集合;S4,将得到的文本字符集合和版面区域集合,聚合成字符分块;S5,对字符分块进行阅读顺序恢复操作;S6,定义标题匹配模式集合;S7,遍历分块序列的行

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档