eDonkey网络爬行技术及特性分析.docVIP

下载本文档

7
0
约7.33千字
约 15页
2018-08-11 发布于福建
举报
版权申诉

eDonkey网络爬行技术及特性分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

eDonkey网络爬行技术及特性分析

eDonkey网络爬行技术及特性分析　　（1.四川大学计算机学院，成都 610064； 2.解放军信息工程大学，郑州 450002）　　?? 　　摘要：　　设计了一种eDonkey网络爬行系统。该系统能避免被中心服务器的自动保护机制添加进黑名单，且能突破返回结果数量限制。通过对爬行获取的数据进行统计分析，得出了eDonkey网络中服务器分布和文件分布的一些特性。　　?す丶?词：电驴网络；爬行技术；黑名单；网络特性　　?ぶ型挤掷嗪牛?TP393文献标志码：A 　　文章编号：1001?B3695(2009)03?B1047?B03 　　?? 　　Crawling technology on eDonkey network and characteristics analysis 　　?? 　　WU Qi1， LIU Yi2， CHEN Xingshu1， WANG Wenxian1 ， ZHENG Binglun1 　　?? 　　（1.College of Computer Science, Sichuan University, Chengdu 610064, China; 2. PLA Information Engineering University， Zhengzhou 450002,China）　　?? 　　Abstract: 　　This paper designed an eDonkey network crawling system which could avoid being added to the blacklist of the central server and break the count restriction of the results when crawler search something from the server. After crawling the network and statistically analyzing the data, summarized the server distribution characteristics and the distribution characteristics of shared file. 　　??Key words：eDonkey network; crawling technology; blacklist; network characteristics 　　?お? 　　近几年来，随着P2P软件的普及，Gnutella [1]和eDonkey[2]等P2P应用的流量成为互联网的主要流量[3]。eDonkey[4~6]网络是目前最流行的P2P文件共享网络之一，该网络是混合性结构，第一层是由管理文件索引的服务器组成的；第二层是由下载和上传的客户端组成。随着eDonkey网络的应用规模扩大，对eDonkey网络的特性研究可以增加对P2P文件共享网络的了解，以便能对其进行合理的管理和疏导。　　1爬行器及爬行策略　　1.1爬行器　　在以前的爬行系统[7]中，爬行器是通过从服务器搜索用户昵称而获得节点信息，从而获得共享文件信息的。但目前eDonkey网络中的大多数服务器都不再支持使用用户昵称查询用户信息的功能。本文介绍的爬行器是通过向服务器发送特定的文件搜索信息来获得文件信息，并通过请求源来获得节点信息。爬行器分为服务器爬行器（爬行器1）和共享文件爬行器（爬行器2）。　　爬行器1（图1）循环地从本地服务器列表中选择一个服务器进行连接，然后利用相应协议与服务器通信并登录。登录成功后，向服务器发出服务器列表请求，并根据返回结果更新本地的服务器列表信息；然后请求获得服务器的共享文件索引数（在eDonkey网络中，服务器仅仅只保存共享文件的索引信息，并不真正保存文件）。对于爬行结果，使用IP地址数据库获取服务器所在的国家、省市等地理信息。　　爬行器2（图2）首先随机地从关键字库中选择一个关键字并向服务器发出文件搜索请求以获得相关的共享文件的具体信息（文件大小、类型等）。待服务器返回文件搜索结果后，爬行器再向服务器发出具体的文件源请求，以此获得具体的文件源信息。关键字库[8]分别由1 000个常用的汉字和1 000个常用的英文单词组成，爬行器工作时，随机地从字库中选取500个英文和500个中文关键字进行搜索。　　　　1.2确定最优搜索频率　　为了维护eDonkey网络的稳定，eDonkey服务器会将频繁地向服务器发出连接或搜索请求的客户端IP地址加入到黑名单，并将拒绝其发出的连接请求。服务器会在一定时间后将客户端IP地址从黑名单中剔除从而