聚焦式Web Crawler工具的设计与开发.pdfVIP

  • 8
  • 0
  • 约9.61千字
  • 约 3页
  • 2017-09-11 发布于贵州
  • 举报
维普资讯 罐瓣蛹 聚焦式WebCrawler工具的设计与开发 唐 详 (南京大学信息管理系 南京 210093) 摘 要 进行 了一种面向特定领域主题搜索的实践——聚焦式WebCrawler。分析 了搜索引擎和聚类算法的一般工 作原理,并指出其不足。在此基础上,综合两者的优 点形成 了聚焦式 WebCrawler工具,介绍 了该工具的主要技术及 实现方式。 关键词 webCrawler 聚类 自动分类 主题挖掘 对一些经常利用互联网进行科研工作的人来说,虽然关键 过滤,通常包括检验该链接是否已经遇到过 ,如果没有,就将其 词检索和 目录索引仍然是他们获取资源的重要手段,但这种方 加人待下载的URL序列中。 式存在着明显 的不足。我们可以先分析一下搜索引擎 的工作 原理。每个搜索引擎都有后台信息收集工具 ,常被人们称为 网 络爬虫 (webCrawler)。webCrawler不间断地在 网上下载 网 页,然后对下载的文本建立索引,生成倒

文档评论(0)

1亿VIP精品文档

相关文档