- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
图书分类号:TP393.09
国际图书分类号: 621.3
学校代码:10213
密级: 公开
工学硕士学位论文
BitTorrent 种子文件获取技术研究与实现
硕 士 研 究 生: 苏马婧
导
师: 方滨兴教授
申请学位级别: 工学硕士
学 科 、 专 业: 计算机科学与技术
所 在 单 位: 计算机科学与工程系
答 辩 日 期: 2009 年 6 月
授予学位单位: 哈尔滨工业大学
Classified Index:TP393.09
U.D.C.: 621.3
Thesis for the Master Degree
RESEARCH AND IMPLEMENTATION OF
BITTORRENT CRAWLER
Candidate:
Supervisor:
Su Majing
Prof. Fang Binxing
Academic Degree Applied for:
Master of
Engineering
Specialty:
Affiliation:
Computer Science and Technology
Computer Science and Technology
Date of
Defence:
June, 2009
Degree-Conferring-Institution:
Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
摘
要
BitTorrent(简称 BT)作为一种高效的 P2P 文件共享协议为越来越多的人所
使用和关注,也成为学术界研究的热点。目前的 BT 发布站点或搜索引擎在效
率、全面性、安全性上存在着或多或少的不足。为此,本文提出了对 BT 种子
文件获取技术的研究,实现一个快速、全面的 BT 种子爬虫系统,为设计方便
用户使用的 BT 搜索引擎和为基于种子文件的 BT 网络行为分析和 BT 数据挖
掘等提供数据来源。
本文通过分析当前面向 BT 种子文件获取的聚焦爬虫面临的问题,从提高
系统获取效率、提高爬虫爬全率的角度出发,提出了基于正则表达式规则的
URL 过滤技术、基于 Hash 的种子文件去重机制,解决了爬虫的自动登录和
AJAX 网页的解析这两个传统爬虫在 BT 种子文件获取这种面向主题应用中存
在的难题。为了降低爬虫获取种子延时,改进了现有的数据抓取和数据更新机
制,提出了新的 URL 爬行任务选择策略和动态任务调整策略。对每一种技术
和方法进行了分析和实验验证,这些技术不仅适用于 BT 种子文件获取,也适
用于通用爬虫和面向其他主题应用的聚焦爬虫。
最后通过设计并实现一个基于 Hadoop 框架的分布式并行 BT 种子文件获
取系统,对系统进行了性能评测和对获取到的种子文件进行了简单的分析挖掘,
实验结果进一步验证了本文提出的技术和方法可以使爬虫系统性能达到实用水
平。
关键词:
BitTorrent; 聚焦爬虫;自动登陆;AJAX 解析;分布式
-I-
哈尔滨工业大学工学硕士学位论文
Abstract
BitTorrent(referred as BT) as a highly effective Peer-to-Peer resource sharing
technology is used by more and more people and attract more and more attention. It
also becomes a hot spot to academic researchers. At present, BitTorrent publish site
and BT search engines have their shortage of efficiency, comprehensiveness and
safety. For this purpose, this paper studies technologies of crawling torrent file in
website and has accomplished a high-speed, comprehensive BT torrent file crawler.
It will contribute to design a user-friendly BT search engines and provide data for BT
network behavior analysis and data mining based on BitTorrent file.
By discussing problems of the focuse
您可能关注的文档
- C-%2c6-H-%2c6-分子和C-%2c6-D-%2c6-分子高频谱的代数计算论文论文.doc
- Graves%27病131I治疗后甲状腺重量变化及疗效评价的临床研究论文论文.doc
- JPEG图像及解压图像中的隐写分析技术研究论文论文.doc
- LXI数字多用表模块的研制论文论文.doc
- TiO-%2c2-光催化剂及其在废水处理中的应用论文论文.doc
- WiMAX系统中智能天线技术的应用研究论文论文.doc
- 艾儒棣教授治疗干燥综合征的经验总结及中医治疗研究进展论文论文.doc
- 苯并噁嗪木材胶粘剂的合成与应用研究论文论文.doc
- 不同中医证型不育患者实验室检查指标的相关性研究论文论文.doc
- 车辆铭牌激光标刻系统研究论文论文.doc
文档评论(0)