论文基于特定域名的Deep Web爬虫的设计与Ruby实现.docVIP

  • 18
  • 0
  • 约 12页
  • 2017-09-22 发布于安徽
  • 举报

论文基于特定域名的Deep Web爬虫的设计与Ruby实现.doc

 基于特定域名的 Deep Web 爬虫的设计与 Ruby 实现 王少岩* 5 10 15 20 25 30 35 40 (北京邮电大学网络与交换技术国家重点实验室,北京 100876) 摘要:目前越来越多网站的内容是传统的搜索引擎无法获取到的,比如说社交网站和微博客 等,这些网站的大部分信息不仅需要用户登录之后才能访问,而且还有很多是动态内容,只 有在用户交互的情况下才能获取到,论文总结了 Deep Web 网站的特点,并且给出了获取这 些内容的解决方案;论文还提出了一个基于多物理机或者虚拟机的分布式爬虫框架,并且定 向爬取了一个社会化问答网站。实验结果表明本论文提出的爬虫框架为定向爬取 Deep Web 的学术研究和应用提供了一定的参考价值。 关键词:计算机应用;Deep Web;定向爬虫;Ruby 中图分类号:TP31 Design and Ruby Implementation of Domain-specific Deep Web Crawler WANG Shaoyan (State Key Lab of Networking and Switching Technology, Beijing University of Post and Telecommunication, Beijing 100876) Abstract: More and more we

文档评论(0)

1亿VIP精品文档

相关文档