网页正文抽取方法及系统.pdfVIP

  • 0
  • 0
  • 约1.76万字
  • 约 16页
  • 2023-06-02 发布于四川
  • 举报
本申请涉及一种网页正文抽取方法及系统,其中,所述网页正文抽取方法通过遍历待抽取网页中的所有节点,滤除噪声节点,可以快速去除与文本无关的噪声内容,通过依据每一个非噪声节点中的文本内容计算得出多个特征指标,并将其用于训练正文节点验证模型,使得正文节点验证模型具有筛选出正文节点匹配分数最高的非噪声节点的功能,这样不需要人为制定网页正文抽取规则,从而可以轻松适应海量网页的大规模正文抽提取的应用场景。而且,正文节点验证模型可以解决通用性和范用性的问题,因此也可以适用于绝大多数的非规范化网页中。

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 115795132 A (43)申请公布日 2023.03.14 (21)申请号 202211252935.X (22)申请日 2022.10.13 (71)申请人 浙江甲骨文超级码科技股份有限公

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档