数据挖掘讨论组讨论vldb文章-accurateande.pptVIP

  • 0
  • 0
  • 约3.82千字
  • 约 27页
  • 2019-10-17 发布于湖北
  • 举报

数据挖掘讨论组讨论vldb文章-accurateande.ppt

Accurate and Efficient Crawling for Relevant Websites Martin Ester Hans-Peter Kriegel Matthias Schubert 报告人: 熊 赟 2005-3-18 内容提要 简介:集中式站点爬虫(搜索)工具(focused website crawler) 相关研究介绍 集中式站点搜索(crawling)任务 集中式站点搜索工具新方法 实验数据评估 结论 集中式站点爬虫工具(focused website crawler) 基于两层体系架构 外部爬虫工具:web看做是一个链接的站点图 内部爬虫工具:单个给定web站点的web页面 优点: 适用于检索web站点而非单一web页面 比较 Web搜索引擎(web search engine) Web目录服务(web directory service) 集中式web爬虫工具(focused web crawler) Web搜索引擎索引单个web页面 Web目录服务提供web上的抽象概念,列出相关主题的站点,但不足的是: a.仅提供小部分与主题相关站点 b.给出的类别缺少用户感兴趣的主题 c.由于手工维护web目录服务并非最新 比较(续) 集中式爬虫工具选择用户感兴趣的web页面,从给定

文档评论(0)

1亿VIP精品文档

相关文档