用于获取网页信息的方法和装置.pdfVIP

  • 1
  • 0
  • 约2.4万字
  • 约 21页
  • 2023-05-10 发布于四川
  • 举报
本申请公开了用于获取网页信息的方法和装置。所述方法的一具体实施方式包括:解析目标网站中的网页,生成所述网页的结构树,从所述结构树的节点中提取至少一个网页元素,生成网页元素集合;对所述网页元素集合中的每个网页元素,确定该网页元素包含预设关键词库中的关键词的数量;根据各个网页元素包含的关键词的数量,在所述网页元素集合中选取出网页元素作为待提取网页元素,并由所选取的待提取网页元素生成信息提取模板;利用所述信息提取模板将所述目标网站中的网页的网页内容转换为结构化数据,从所述结构化数据中获取所述网页的信息

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 108090104 A (43)申请公布日 2018.05.29 (21)申请号 20161

文档评论(0)

1亿VIP精品文档

相关文档