- 18
- 0
- 约 12页
- 2017-09-22 发布于安徽
- 举报
基于特定域名的 Deep Web 爬虫的设计与
Ruby 实现
王少岩*
5
10
15
20
25
30
35
40
(北京邮电大学网络与交换技术国家重点实验室,北京 100876)
摘要:目前越来越多网站的内容是传统的搜索引擎无法获取到的,比如说社交网站和微博客
等,这些网站的大部分信息不仅需要用户登录之后才能访问,而且还有很多是动态内容,只
有在用户交互的情况下才能获取到,论文总结了 Deep Web 网站的特点,并且给出了获取这
些内容的解决方案;论文还提出了一个基于多物理机或者虚拟机的分布式爬虫框架,并且定
向爬取了一个社会化问答网站。实验结果表明本论文提出的爬虫框架为定向爬取 Deep Web
的学术研究和应用提供了一定的参考价值。
关键词:计算机应用;Deep Web;定向爬虫;Ruby
中图分类号:TP31
Design and Ruby Implementation of Domain-specific Deep
Web Crawler
WANG Shaoyan
(State Key Lab of Networking and Switching Technology, Beijing University of Post and
Telecommunication, Beijing 100876)
Abstract: More and more we
原创力文档

文档评论(0)