论文基于特定域名的Deep Web爬虫的设计与Ruby实现.docVIP

下载本文档

18
0
约 12页
2017-09-22 发布于安徽
举报

论文基于特定域名的Deep Web爬虫的设计与Ruby实现.doc

基于特定域名的 Deep Web 爬虫的设计与 Ruby 实现王少岩* 5 10 15 20 25 30 35 40 （北京邮电大学网络与交换技术国家重点实验室，北京 100876）摘要：目前越来越多网站的内容是传统的搜索引擎无法获取到的，比如说社交网站和微博客等，这些网站的大部分信息不仅需要用户登录之后才能访问，而且还有很多是动态内容，只有在用户交互的情况下才能获取到，论文总结了 Deep Web 网站的特点，并且给出了获取这些内容的解决方案；论文还提出了一个基于多物理机或者虚拟机的分布式爬虫框架，并且定向爬取了一个社会化问答网站。实验结果表明本论文提出的爬虫框架为定向爬取 Deep Web 的学术研究和应用提供了一定的参考价值。关键词：计算机应用；Deep Web；定向爬虫；Ruby 中图分类号：TP31 Design and Ruby Implementation of Domain-specific Deep Web Crawler WANG Shaoyan (State Key Lab of Networking and Switching Technology, Beijing University of Post and Telecommunication, Beijing 100876) Abstract: More and more we

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

论文基于特定域名的Deep Web爬虫的设计与Ruby实现.docVIP