自动提取网页正文的方法及系统.pdfVIP

  • 0
  • 0
  • 约1.87万字
  • 约 14页
  • 2023-06-06 发布于四川
  • 举报
本发明提供一种自动提取网页正文的方法及系统,该方法包括:对目标网页的DOM节点进行筛选,获取备选DOM节点;若父节点的文字内容长度大于预设长度阈值,即将备选DOM节点、备选DOM节点的父节点、父节点的父节点放入待处理列表中,否则忽略此备选节点;根据待处理列表中各个节点的标签,获取各个节点的初始评分;根据预设评分模型,获取待处理列表各个节点的附加分数;据待处理列表优选DOM节点列表中所有优选DOM节点的最终分数,获取内容节点。本发明与传统方法相比,不需要使用人工对文档作出标记,可以提高文档正文的提

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 112765941 A (43)申请公布日 2021.05.07 (21)申请号 202110081170.7 (22)申请日 2021.01.21 (71)申请人 语联网(武汉)信息技术有限公司

文档评论(0)

1亿VIP精品文档

相关文档