【毕业论文】主题网络爬虫的研究与实现.docVIP

  • 18
  • 0
  • 约4.12万字
  • 约 51页
  • 2017-08-09 发布于辽宁
  • 举报

【毕业论文】主题网络爬虫的研究与实现.doc

PAGE 本 科 毕 业 论 文 主题网络爬虫的设计与实现 Design and implementation of subject-oriented crawler 姓 名:路 刚 学 号:23020051204554 学  院:软件学院 系:软件工程 专 业:软件工程 年 级:2005级 指导教师:史亮 副教授 二〇〇九 年 六 月 PAGE I 摘 要 目前信息网上蕴含了大量的信息,但通过人工浏览的方法很难做到对信息的安全浏览、整理,很多有用的信息也就白白流失,产生了大量信息不能及时应用的矛盾,给用户造成了很大的不便,为了解决这一问题,搜索引擎这一新热点技术应运而生,本文结合信息网的特征,运用信息抽取和网页解析技术,设计和实现了搜索引擎中最重要的部分——网络爬虫,以提供分类更细致精确、数据更全面深入、更新更及时的因特网搜索服务。 本文首先对概述了网络爬虫的发展概况,然后分析了网络爬虫的体系结构以及实现原理,并深入分析了主题页面在Web上的分布特征与主题相关性的判别算法,具体工作如下: (1)爬虫部分,通过设计种子网站进行爬虫,下载尽可能全且与用户要求相符合的网站。 (2)网页预处理

文档评论(0)

1亿VIP精品文档

相关文档