CN119625745A 一种基于nsp的对ocr的文本聚类去噪方法 (天清数安(天津)科技有限公司).docxVIP

  • 1
  • 0
  • 约7.9千字
  • 约 13页
  • 2026-05-30 发布于山西
  • 举报

CN119625745A 一种基于nsp的对ocr的文本聚类去噪方法 (天清数安(天津)科技有限公司).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119625745A

(43)申请公布日2025.03.14

(21)申请号202510167602.4

(22)申请日2025.02.17

(71)申请人天清数安(天津)科技有限公司

地址300110天津市南开区科研东路西侧

天津科技广场

(72)发明人石琦王晓邸小丽

(74)专利代理机构北京鼎云升知识产权代理事务所(普通合伙)11495

专利代理师张捷

(51)Int.Cl.

G06V30/164(2022.01)

G06V30/19(2022.01)

G06F40/30(2020.01)

G06N20/00(2019.01)

权利要求书1页说明书5页附图1页

(54)发明名称

一种基于nsp的对ocr的文本聚类去噪方法

(57)摘要

CN119625745A本发明提出一种基于nsp的对ocr的文本聚类去噪方法,涉及噪音数据识别技术领域,包括获取数据、聚类、获取簇心、簇心的处理以及去噪处理五个步骤,本发明提供一种结合上下文语义分析与聚类分析的一种方法,利用bert模型中的nsp任务模型进行聚类,再对结果进行分析,得到离散的噪音数据,具有通用性以及简便性,由此本发明能够在不同场景和条件下工作,无论是处理高分辨率的扫描文档还是低质量的手机拍摄图

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档