CN119538921A 一种非规范文档的切片处理方法 (浙江孚临科技有限公司).docxVIP

  • 1
  • 0
  • 约1.01万字
  • 约 15页
  • 2026-05-11 发布于山西
  • 举报

CN119538921A 一种非规范文档的切片处理方法 (浙江孚临科技有限公司).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119538921A

(43)申请公布日2025.02.28

(21)申请号202510101066.8

(22)申请日2025.01.22

(71)申请人浙江孚临科技有限公司

地址310000浙江省杭州市滨江区长河街

道建业路511号华创大厦7层703室

(72)发明人唐科伟陈声鸿

(74)专利代理机构福州顺升知识产权代理事务所(普通合伙)35242

专利代理师李荣荣

(51)Int.Cl.

G06F40/284(2020.01)

G06F40/30(2020.01)

G06F18/214(2023.01)

G06F18/2411(2023.01)

权利要求书2页说明书5页附图1页

(54)发明名称

一种非规范文档的切片处理方法

(57)摘要

CN119538921A本发明涉及文本处理技术领域,具体公开了一种非规范文档的切片处理方法,包括以下步骤:S1:确定第一关键词和第二关键词;S2:获取第一词向量和第二词向量,基于第一词向量和第二词向量确定子段落和章节名称之间的关联程度;S3:根据关联程度确定待定段落,对待定段落进行排序得到段落排序;确定目标段落对应的章节名称,根据新的章节名称再次确定待定段落;当不存在待定段落时判定文档完成规范化,对规范化后的文

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档