北邮毕设答辩网络爬虫设计及算法研究PPT.pptVIP

  • 306
  • 0
  • 约1.37千字
  • 约 20页
  • 2018-10-01 发布于江苏
  • 举报

北邮毕设答辩网络爬虫设计及算法研究PPT.ppt

北邮毕设答辩网络爬虫设计及算法研究PPT

网络爬虫设计及相应算法研究;; 项目名称: 网络爬虫设计及相应算法研究 The Research and Design of Web Crawler 项目类别:软件研究设计类 项目来源:科研项目;; 搜索引擎介绍: 互联网的迅速发展,使得网上信息越来越多,搜索引擎正是为了解决在浩瀚的信息海洋中快速高效的寻找信息的问题。 搜索引擎是通过互联网搜索信息的重要途径,涉及到多个领域的理论和技术,具有很高的综合性和很强的挑战性。本课题研究的内容是搜索引擎的关键部分——网络爬虫。 ; 网络爬虫的基本原理: 1)从一个初始URL集合中挑选一个URL,下载该URL对应的页面; 2)解析该页面,从该页面中抽取出其包含的URL集合,接下来将抽取的URL集合再添加到初始URL集合中; 3)重复前两个过程,直到爬虫达到某种停止标准为止。 ;; 学习爬虫的基本技术 网页抓取技术 网页去重技术 多线程技术 ; 网页抓取技术 宽度优先遍历算法和广度优先算法 PageRank算法——基于链接的搜索算法 ; 网页去重技术 Bloom Filter 算法 错误率估计 最优哈希函数个数 位数组大小 ; 多线程技术 多线程 半同步/半异步并发模式 多线程的问题 ;; 设计实现爬虫系统,并对系统性能就以下两方面进行比较分析:

文档评论(0)

1亿VIP精品文档

相关文档