- 7
- 0
- 约2.56万字
- 约 16页
- 2021-12-02 发布于江苏
- 举报
基于Hadoop和HBase的Nutch分布式主题网络爬虫
的研究
施磊磊,施化吉
(江苏大学 计算机科学与通信工程学院,江苏镇江212013)
摘 要:针对Nutc 主题爬虫的爬取效率和下载网页的准确度问题,本文采用向量空间模型
来提高下载网页的主题相关度,并引入改进的PageRank 算法来计算链接主题网页的爬取优
先级,同时搭建Hadoop 分布式集群环境,以MapReduce 分布式计算模型以达到高效率的
您可能关注的文档
最近下载
- 义务教育版四年级信息科技 第17课 查找筛选讲效率 教案.doc VIP
- 《工业控制网络及组态技术》教案.docx
- 神界原罪全装备及道具制作配方材料一览表.docx VIP
- 2026苏教版数学二年级下册全册教学课件.pptx
- 2025 中医儿科小儿便秘医学查房课件.pptx VIP
- 《面向对象程序设计C++》期末试卷及标准答案 .pdf VIP
- 《水质 氟化物的测定 离子选择电极(ISE)自动分析仪法》编制说明.doc VIP
- 马达技术知识及性能介绍.ppt
- 联想ThinkServer+SR658H+V2用户手册.pdf VIP
- 2026年春学期部编版初中语文七年级下册教学计划.docx VIP
原创力文档

文档评论(0)