基于Hadoop和HBase的Nutch分布式网络爬虫的研究14.pdfVIP

  • 7
  • 0
  • 约2.56万字
  • 约 16页
  • 2021-12-02 发布于江苏
  • 举报

基于Hadoop和HBase的Nutch分布式网络爬虫的研究14.pdf

基于Hadoop和HBase的Nutch分布式主题网络爬虫 的研究 施磊磊,施化吉 (江苏大学 计算机科学与通信工程学院,江苏镇江212013) 摘 要:针对Nutc 主题爬虫的爬取效率和下载网页的准确度问题,本文采用向量空间模型 来提高下载网页的主题相关度,并引入改进的PageRank 算法来计算链接主题网页的爬取优 先级,同时搭建Hadoop 分布式集群环境,以MapReduce 分布式计算模型以达到高效率的

文档评论(0)

1亿VIP精品文档

相关文档