一种基于主题特征和内容语义的新型网页去重方法.pdfVIP

  • 1
  • 0
  • 约1.54万字
  • 约 14页
  • 2023-06-06 发布于四川
  • 举报

一种基于主题特征和内容语义的新型网页去重方法.pdf

本发明提供了一种基于主题特征和内容语义的新型网页去重方法,其特征在于,包括:利用HTML网页标签分类模型自动抽取目标网页的网页正文;基于网页正文进行主题计算和限定;网页相似度计算。本发明提供的方法能够一定程度地解决相关技术中存在的问题,应用于互联网中不同来源、不同风格、不同内容的全网网页,并在执行效率、计算准确性等方面显著地优于现有的技术方法。

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 112765940 A (43)申请公布日 2021.05.07 (21)申请号 202110073759.2 (22)申请日 2021.01.20 (71)申请人 南京万得资讯科技有限公司

文档评论(0)

1亿VIP精品文档

相关文档