软件专业毕业论文：网络蜘蛛城设计及实现.docVIP

下载本文档

1
0
约1.93万字
约 27页
2017-09-14 发布于陕西
举报
版权申诉

软件专业毕业论文：网络蜘蛛城设计及实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中南大学本科生毕业论文（设计）调研报告题目网络蜘蛛城设计及实现学生姓名指导教师学院软件学院专业班级软件0701班完成时间 2010年12月摘要随着互联网的发展，网络中的资源越来越多，人们在享受互联网带来的便利的同时，却面临着一个如何地从浩瀚的信息资源中快速、确地找到用户所需要的信息的问题搜索引擎就是在这种背景下孕育而生，解决了这一个大问题。搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理后，并将处理后的信息显示给用户，是为用户提供检索服务的系统。而在搜索引擎中最重要模块就是网页抓取模块～网络蜘蛛，本文从搜索引擎开始介绍，阐述了搜索引擎的原理以及发展现状，进而介绍了网络蜘蛛结构和其实现原理和策略，并对网络蜘蛛的关键部分进行了简单的设计。关键词：网络蜘蛛、搜索引擎目录摘要 - 2 - 第一章网络蜘蛛的背景及意义 - 4 - 1．1网络蜘蛛的概念和发展起源 - 4 - 1．2网络蜘蛛的工作原理 - 5 - 1．3可行性分析 - 8 - 1.3.1 市场可行性分析 - 8 - 1.3.2技术可行性分析 - 8 - 1．4国内外研究现状 - 9 - 1．5网络蜘蛛目前存在的问题 - 9 - 第二章网络蜘蛛的算法分析 - 10 - 2．1网络蜘蛛搜索策略的分类 - 11 - 2.1.1基于立即回报价值评价的搜索策略 - 11 - 基于内容评价的搜索策略 - 11 - 基于链接结构评价的搜索策略 - 12 - 2.1.2基于未来回报价值评价的搜索策略 - 13 - 基于巩固学习的搜索策略 - 13 - 基于“语境图”的搜索策略 - 14 - 2．2中文分词算法分类 - 15 - 2.2.1 基于字符串匹配的分词方法 - 15 - 2.2.2基于统计的分词方法 - 16 - 2.2.3正向减字最大匹配法 - 16 - 第三章系统开发的技术和平台 - 19 - 3．1 J2SE开发平台 - 19 - 3．2 C/S结构介绍 - 19 - 3．3 UML建模技术 - 20 - 3．4 Eclipse - 21 - 第四章系统开发的任务及进度安排 - 21 - 4. 1 系统的开发任务 - 21 - 4. 2 项目预期难点 - 22 - 4.2.1多线程操作 - 22 - 4.2.2网络蜘蛛搜索策略 - 23 - 4.2.3分词算法 - 23 - 基于字符串匹配的分词方法 - 24 - 基于统计的分词方法的组合 - 24 - 正向减字最大匹配法 - 24 - 4．3 系统设计进度安排 - 24 - 参考文献 26 第一章网络蜘蛛的背景及意义 1．1网络蜘蛛的概念和发展起源什么是网络蜘蛛呢？网络蜘蛛即Web Spider，是个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。网络蜘蛛就是一个爬行程序，一个抓取网页的程序。要说网络蜘蛛的起源，我们还得从搜索引擎说起，什么是搜索引擎呢？搜索引擎的起源是什么，这和网络蜘蛛的起源密切相关。搜索引擎指自动从英特网搜集信息，经过一定整理以后，提供给用户进行查询的系统。英特网上的信息浩瀚万千，而且毫无秩序，所有的信息像汪洋上的一个个小岛，网页链接是这些小岛之间纵横交错的桥梁，而搜索引擎，则为你绘制一幅一目了然的信息地图，供你随时查阅。搜索引擎从1990年原型初显，到现在成为人们生活中必不可少的一部分，它经历了太多技术和观念的变革。 1994年的1月份，第一个既可搜索又可浏览的分类目录EINetGalaxy上线了。在它之后才出现了雅虎，直至我们现在熟知的Google、百度。但是他们都不是第一个吃搜索引擎这个螃蟹的第一人。从搜索FTP上的文件开始，搜索引擎的原型就出现了，那时还未有万维网，当时人们先用手工后用蜘蛛程序搜索网页，但随着互联网的不断壮大，怎样能够搜集到的网页数量更多、时间更短成为了当时的难点和重点，成为人们研究的重点。如果要追溯的话，搜索引擎的历史比WorldWideWeb 还要长。早在Web出现之前，互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的FTP 站点。为了便于人们在分散的FTP资源中找到所需的东西，1990年，加拿大麦吉尔大学（McGillUniversity）的几