毕业论文（参考）搜索引擎中网络蜘蛛的设计与实现.docVIP

下载本文档

5
0
约1.45万字
约 40页
2016-05-18 发布于浙江
举报
版权申诉

毕业论文（参考）搜索引擎中网络蜘蛛的设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

湖南师范大学计算机科学与技术专业优秀本科毕业论文搜索引擎中网络蜘蛛的设计与实现于力超二〇〇七年五月目录摘要 1 1 绪论 3 1.1 课题背景 3 1.2 搜索引擎的定义与发展历史 3 1.3 现代搜索引擎的结构与原理 5 1.4 本文研究的主要内容 6 2 网络蜘蛛系统的分析与设计 7 2.1 网络蜘蛛的功能分析与设计要求 7 2.2 系统结构与工作原理 8 2.3 基于线程池技术的线程管理 10 2.4 基于广度优先的URL Server 12 2.4.1页面爬取策略——广度优先算法 12 2.4.2如何避免重复工作 13 2.5 HTML的解析 14 2.6 页面的存储与更新策略 16 3 基于Java的面向对象设计与实现 18 3.1 Java技术简介 18 3.2 网络蜘蛛的面向对象设计 19 3.3 线程池的实现 21 3.3.1工作线程Spider类 21 3.3.2线程池SpiderPool 22 3.4 基于哈希表的URL Server 23 3.4.1数据结构 23 3.4.2如何通知线程停止 24 3.5 Java Socket与页面请求 26 3.6 用正则表达式解析页面 27 3.7 网络蜘蛛的控制 29 3.8 程序运行结果的分析 30 结论 33 参考文献 35 致谢 36 搜索引擎中网络蜘蛛的设计与实现计算机科学与技术2003级于力超摘要：在互联网蓬勃发展的今天，信息浩如烟海。人们在享受互连网带来的便利的同时，却面临着一个如何在如此海量的内容中准确、快捷地找到自己所需要的信息的问题，由此互联网搜索引擎应运而生。当前对于搜索引擎是互联网中最热门的研究领域，以提供原料为主的网络蜘蛛正是搜索引擎性能的关键所在。性能是网络蜘蛛的关键，采用多线程并发页面请求的方式可以大大提高网络蜘蛛的性能。此外，爬取策略，即优先爬取哪些网页也是影响网络蜘蛛高效性的关键因素，广度优先遍历算法是是解决这一问题的合理答案。本文首先从搜索引擎出发，对搜索引擎的发展历史、系统结构和工作原理做了初步了解，然后探讨了网络蜘蛛在搜索引擎中的作用和地位，进而提出了网络蜘蛛的功能和设计要求。接着，在对网络蜘蛛系统结构和工作原理所作分析的基础上，研究了线程调度、页面爬取、解析等策略和算法。并使用Java给出了一个网络蜘蛛的实现程序，对其运行结果做了分析。最后，本文总结了实现程序的不足和优点，并展望了下一步的研究方向。关键词：搜索引擎；网络蜘蛛；线程池；哈希表；广度优先 Design and Implementation of Web Spider in Search Engine Abstract: The contents on the web are increasing exponentially as the rapid development of the Internet. A problem how to obtain the useful information from vast contents quickly and accurately is facing us while people are enjoying the convenience of the Internet. The solver of this problem is Web Search Engine. Nowadays, search engine is one of the hottest topics in the field of Internet technology. To provide raw materials, Web Spider is the key to the performance of Search Engine. Performance is the key to Web Spider. Using multithreading to send request concurrently can improve the performance of Web Spider. In addition, crawling strategy that which pages should be downloaded first is also the key factor of performance. Breadth-first traversal is the reasonable answer to solve this problem. This text first from search engine to set out, did first step un