基于C网络蜘蛛设计和实现.docVIP

下载本文档

1
0
约4.01千字
约 10页
2018-08-28 发布于福建
举报
版权申诉

基于C网络蜘蛛设计和实现.doc

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于C网络蜘蛛设计和实现

基于C网络蜘蛛设计和实现　　摘要：网络蜘蛛是现代搜索引擎获得网络信息的重要手段，直接影响到搜索引擎的查全率，C#是微软发布的开发平台.NET中的旗舰，本文设计了一种简易的网络蜘蛛并通过C#语言将其实现。　　关键词：C#.NET 线程网络蜘蛛排序算法　　中图分类号：TP311 文献标识码：B 文章编号：1673-8454（2008）21-0069-03 　　　　目前，对于全球大多数互联网用户来说，搜索引擎是其准确获得所需要信息或者知识的最有效的工具。但是对于所有的搜索引擎来说，最重要的性能指标有两个：查全率和查准率。查全率和搜索引擎搜集的网页数量和质量有关，而查准率和搜索引擎所采用的导航方式及排序算法有关。　　本文介绍的是将搜索引擎用于搜集网页，提高查全率的最重要的工具――网络蜘蛛（Web Spider），也称网络机器人(Web Robot)。网络蜘蛛的主要作用是搜集互联网的网页，我们也可以用它来定期搜集某个网站的内容，来跟踪判断网站的发展，或者做站内搜索引擎。从网络蜘蛛的工作原理来看，“网络蜘蛛”是一个比较形象的名字，它是在互联网内，通过网页链接，从一个网页爬到另一个网页来进行网页内容搜集的工具。它的工作通常是这样进行的：在一个网页上，把这个网页的内容收集入数据库，分析这个网页的链接，根据链接进入另一个网页。再进行上面的操作，直到把这个网站的页面全部搜集完，转入下一个网站。　　　　图1 链接图示　　C#是微软发布的开发平台.NET中的旗舰，是一种优秀的编程语言，下面笔者介绍一下如何设计一个简单的网络蜘蛛并用C#实现。　　　　一、网络蜘蛛的设计　　　　对于网络蜘蛛的设计一般分为如下几个部分：　　（1）数据库设计，能满足搜集网页信息的需要；　　（2）网页解析及下载；　　（3）在页面间爬行算法的设计。　　一般来说，对于一个网络蜘蛛来说，在数据库中要至少包含的核心信息有URL索引、URL是否已经被访问、下载的网页内容、网页的关键词等。数据库的设计和以后搜索引擎想实现的功能或者排序算法所需要的参数有很大关系，但是对于网络蜘蛛来说，能够记录网站URL和其对应的网页信息是最基本的。数据库设计就根据需要所定，而一些简易的网络蜘蛛其下载页面直接放置在磁盘所创建的文件夹上，对数据库的依赖就减少很多。　　网页解析，网页解析最重要的一个目的就是获取所解析页面的HREF属性，根据属性来获取页面链接，以方便确定下一步遍历目标。不过，如果要是对所下载的信息进行进一步处理――比如提取摘要，页面解析也可以比较方便地除去页面中诸如注释、脚本、样式表之类的信息，根据HTML语法建立DOM语法树，进行页面清洗。[1]页面下载是指网络蜘蛛把网页内容从互联网下载到本地保存。[2] 　　页面间爬行算法的设计，其实就是网络蜘蛛遍历链接先后的爬行策略。一般有广度优先策略（ＢＦＳ）和深度优先策略（ＤＦＳ）两种。[3]如果把每个网页看作互联网上的一个节点，那么广度优先遍历和深度优先遍历算法可如下描述，如图1所示。　　根据图1的描述，对于广度优先策略来说，网络蜘蛛从A节点出发，其遍历的顺序是A―B,C,D,E,F―G,H―I；对于深度遍历来说，其遍历顺序是A―F―G―I―E―H―D―C―B，一般因为标准的网站构建尽量是贴近扁平式的，如果选用深度遍历算法每爬一层就要访问数据库一次，数据访问次数多于广度遍历算法，在时间复杂度上处于劣势。并且网络蜘蛛也多采用多线程方式实现，所以遍历算法选用的是广度优先遍历更为合理，广度优先遍历算法描述如下：　　　　图2 Spider工作流程　　BFS算法　　Begin 　　Visit Index 　　Push clientnode.child into the end of Unvisitedqueue; 　　If(Unvisitedqueue!=null) 　　{ 　　Visit the top of Unvisitedqueue; 　　Clientnode= Unvisitedqueue.top; 　　Visit Clientnode; 　　Push clientnode into visitedqueue; 　　} 　　End 　　上述这三个部分都能够实现的话，网络蜘蛛完整工作流程如图2所示。　　对于网络蜘蛛的工作流程，如图2所示，网络蜘蛛首先获得一个URL，根据已经处理的URL数据库来判断该URL是否被处理过，如果没有处理过，则解析这个页面，提取这个页面链接页面的URL，然后下载当前页面，同时把当前页面的URL添加到已经处理的数据库中，然后根据选择的遍历算法向Spider提交下一个URL。如果在URL判断中，这个页面已经被