基于特定域名的Deep Web爬虫的设计与Ruby实现.docVIP

下载本文档

8
0
约6.49千字
约 6页
2017-09-22 发布于安徽
举报
版权申诉

基于特定域名的Deep Web爬虫的设计与Ruby实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于特定域名的 Deep Web 爬虫的设计与 Ruby 实现王少岩* 5 10 15 20 25 30 35 40 （北京邮电大学网络与交换技术国家重点实验室，北京 100876）摘要：目前越来越多网站的内容是传统的搜索引擎无法获取到的，比如说社交网站和微博客等，这些网站的大部分信息不仅需要用户登录之后才能访问，而且还有很多是动态内容，只有在用户交互的情况下才能获取到，论文总结了 Deep Web 网站的特点，并且给出了获取这些内容的解决方案；论文还提出了一个基于多物理机或者虚拟机的分布式爬虫框架，并且定向爬取了一个社会化问答网站。实验结果表明本论文提出的爬虫框架为定向爬取 Deep Web 的学术研究和应用提供了一定的参考价值。关键词：计算机应用；Deep Web；定向爬虫；Ruby 中图分类号：TP31 Design and Ruby Implementation of Domain-specific Deep Web Crawler WANG Shaoyan (State Key Lab of Networking and Switching Technology, Beijing University of Post and Telecommunication, Beijing 100876) Abstract: More and more web content can not be retrieved by traditonal search engines, such as social network sites and micro-blog service which only can be accessed after login, and there are lots of dynamic pages which can display in the case of user interactions. The paper summarizes the characteristics of Deep Web sites, and gives the solution to access them. The paper also proposes a distributed crawler framework based on multiple physical or virtual machines, and give an example which climbs a social question answering (QA) site directly. Results show the domain-specific crawler framework provides reference value for research and related applications. Keywords: Computer Applications; Deep Web; Domain-specific crawler; Ruby 0 引言整个 WWW（World Wide Web）的页面有两部分构成：Surface Web 和 Deep Web（或者叫做 Invisible Web, 或者叫做 Hidden Web）[1]。前者通过 HTML 标签互相连接起来，可以被传统的搜索引擎收录和索引；后者 Deep Web 主要存在于动态生成的网站，传统的搜索引擎没有办法发现这些内容，因为它们往往是一个特定的查询动态生成的。据调查[2]，目前这些在线的动态数据库已经达到了 2500 万，可以分为以下两类[3]：（1）私有 Web，往往需要注册和登录才能看到，比如论文中研究的社会化搜索网站 Quora[4]，它的很多内容都是只有用户通过验证登录之后才能获取到的；（2）动态内容[5]，这些动态页面往往需要用户执行某一个操作之后才会产生，比如用户进行一次查询后服务器返回的类目列表，或者是想要查看更多内容时点击“获取更多”按钮返回的信息等。因此，如何在不侵犯网站隐私的情况下，获取 Deep Web 的内容是已经是一件很有挑战性的工作，在进行学术研究时，往往需要对一些网站的用户结构和分布进行分析，如何有效的获取这些信息，如何快速的用脚本语言搭建一个健壮稳定的爬虫框架，将是本文主要探讨的内容。接下来我们分成四个部分来阐述论文的主要工作：第一章对网站 Quora 的基本结构和特点进行分析，介绍了 Deep Web 网站的主作者简介：王少岩，（1989-），男，硕士，主要研究方向：社会化搜索。 E-mail: stufever@ -1- 要特点，第二章讲述了爬虫