基于谷歌搜索引擎产品研究.docVIP

  • 1
  • 0
  • 约2.19千字
  • 约 6页
  • 2018-10-27 发布于福建
  • 举报
基于谷歌搜索引擎产品研究

基于谷歌搜索引擎产品研究   摘 要   所有的搜索引擎产品,都可以归结为下载、索引和排序三个步骤,即自动下载海量的网页;建立快速有效的索引;对网页进行公平准确的排序。互联网错综复杂,本质是一张图,每个页面都是一个节点,超链接是连接网页的弧,而自动抓取网络信息的程序就是爬虫。索引是基于数据库的,搜索引擎会自动将用户的查询语句转换成布尔代数进行处理。一个搜索引擎对网页的排序很大程度上决定了搜索引擎的质量。   【关键词】搜索引擎 PageRank TF-IDF   1 下载――构建网络爬虫   1.1 图遍历算法的取舍   从理论上讲,广度优先搜索(BFS)和深度优先搜索(DFS)算法的时间复杂度都是O(n + e),不同的算法爬下整个静态网页的内容所用的时间是相同的。但在现实生活中,时间有限,互联网时刻变化。所以应该考虑有限时间里尽可能多的爬下最重要的网页,一个网站中最重要的网页应该是它的首页以及首页所连接的页面,BFS明显优于DFS。但实际的网络爬虫都是由很多服务器组成的分布式系统,这些下载服务器和网络服务器建立通信需要额外时间,这时就需要用到DFS以避免握手次数过多。   1.2 提取URL并做出URL表   有些页面的URL以文本形式存储在页面中,有明显标识;而有些时候需要模拟浏览器运行才可以提取到页面中隐含的URL。但在互联网这张大图上,一个页面可能被多个

文档评论(0)

1亿VIP精品文档

相关文档