软件工程专业毕业论文--网络爬虫设计与实现+开题报告.docVIP

  • 2738
  • 4
  • 约5.75万字
  • 约 53页
  • 2017-09-22 发布于河南
  • 举报

软件工程专业毕业论文--网络爬虫设计与实现+开题报告.doc

大学本科生毕业设计(论文)开题报告 课题名称 网络爬虫设计与实现 学院名称 专业名称 软件工程 学生姓名 指导教师 (内容包括:课题的来源及意义,国内外发展状况,本课题的研究目标、研究内容、研究方法、研究手段和进度安排,实验方案的可行性分析和已具备的实验条件以及主要参考文献等。) 课题的来源及意义 互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。 国内外发展状况 对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成部分。网络上比较著名的开源爬虫包括Nutch,Larbin,Heritrix。网络爬虫最重要的是网页搜索策略(广度优先和最佳度优先)和网页分析策略(基于网络拓扑的分析算法和基于网页内容的网页分析算法)。 研究目标 本论文主要研究搜索引擎的搜索器(网络爬虫程序)的设计与实现,实现简单的可在后台自动运行的爬虫程序。 可以多线程进行抓取。 可以进行面向主题的抓取。 四.研究内容 本课题研究的内容是如何

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档