BitTorrent种子文件获取技术研究与实现论文论文.doc

BitTorrent种子文件获取技术研究与实现论文论文.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
图书分类号:TP393.09 国际图书分类号: 621.3  学校代码:10213 密级: 公开 工学硕士学位论文 BitTorrent 种子文件获取技术研究与实现 硕 士 研 究 生: 苏马婧 导 师: 方滨兴教授 申请学位级别: 工学硕士 学 科 、 专 业: 计算机科学与技术 所 在 单 位: 计算机科学与工程系 答 辩 日 期: 2009 年 6 月 授予学位单位: 哈尔滨工业大学 Classified Index:TP393.09 U.D.C.: 621.3 Thesis for the Master Degree RESEARCH AND IMPLEMENTATION OF BITTORRENT CRAWLER Candidate: Supervisor:  Su Majing Prof. Fang Binxing Academic Degree Applied for: Master of Engineering Specialty: Affiliation: Computer Science and Technology Computer Science and Technology Date of Defence: June, 2009 Degree-Conferring-Institution: Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 摘  要 BitTorrent(简称 BT)作为一种高效的 P2P 文件共享协议为越来越多的人所 使用和关注,也成为学术界研究的热点。目前的 BT 发布站点或搜索引擎在效 率、全面性、安全性上存在着或多或少的不足。为此,本文提出了对 BT 种子 文件获取技术的研究,实现一个快速、全面的 BT 种子爬虫系统,为设计方便 用户使用的 BT 搜索引擎和为基于种子文件的 BT 网络行为分析和 BT 数据挖 掘等提供数据来源。 本文通过分析当前面向 BT 种子文件获取的聚焦爬虫面临的问题,从提高 系统获取效率、提高爬虫爬全率的角度出发,提出了基于正则表达式规则的 URL 过滤技术、基于 Hash 的种子文件去重机制,解决了爬虫的自动登录和 AJAX 网页的解析这两个传统爬虫在 BT 种子文件获取这种面向主题应用中存 在的难题。为了降低爬虫获取种子延时,改进了现有的数据抓取和数据更新机 制,提出了新的 URL 爬行任务选择策略和动态任务调整策略。对每一种技术 和方法进行了分析和实验验证,这些技术不仅适用于 BT 种子文件获取,也适 用于通用爬虫和面向其他主题应用的聚焦爬虫。 最后通过设计并实现一个基于 Hadoop 框架的分布式并行 BT 种子文件获 取系统,对系统进行了性能评测和对获取到的种子文件进行了简单的分析挖掘, 实验结果进一步验证了本文提出的技术和方法可以使爬虫系统性能达到实用水 平。 关键词:  BitTorrent; 聚焦爬虫;自动登陆;AJAX 解析;分布式 -I- 哈尔滨工业大学工学硕士学位论文 Abstract BitTorrent(referred as BT) as a highly effective Peer-to-Peer resource sharing technology is used by more and more people and attract more and more attention. It also becomes a hot spot to academic researchers. At present, BitTorrent publish site and BT search engines have their shortage of efficiency, comprehensiveness and safety. For this purpose, this paper studies technologies of crawling torrent file in website and has accomplished a high-speed, comprehensive BT torrent file crawler. It will contribute to design a user-friendly BT search engines and provide data for BT network behavior analysis and data mining based on BitTorrent file. By discussing problems of the focuse

文档评论(0)

gubeiren_001 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档