- 1、本文档共66页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎技术讨论 搜索引擎 背景 ?? 体系结构 ?? 评测标准 ?? 抓取 ?? 索引和查找 ?? 结果排序 背景 数量巨大,Web上的网页量级是billion,中国的web页面几十亿。 产生背景 生长速度快,指数级增长。 背景 用户如何在这些海量信息中找到有用的信息? 早期的目录方式,人工分类 Yahoo,Sohu 随着网页的进一步增长,单纯的人工方式已经远远适应不了Web的发展 搜索方式,Alta Vista,Goolge 搜索引擎 ?? 背景 ?? 工作流程和体系结构 ?? 评测标准 ?? 抓取 ?? 索引和查找 ?? 结果排序 工作流程和体系结构 收集-分析-服务 工作流程和体系结构 搜索引擎 ?? 体系结构 ?? 评测标准 ?? 网页收集 ?? 网页预处理 ?? 索引和查找 ?? 结果排序 网页收集-General Crawler 将Web上的网页集合看成是一个有向图,搜集过程从给定起始URL集合S(或者说“种子”)开始,沿着网页中的链接,按照先深、先宽、或者某种别的策略遍历,不停的从S中移除URL,下载相应的网页,解析出网页中的超链接URL,看是否已经被访问过,将未访问过的那些URL加入集合S。整个过程可以形象地想象为一个爬虫(spider)在蜘蛛网(Web)上爬行(crawl)。 网页收集-算法描述 spider(url_list)//宽度优先为例 ?? pop a url from url_list ?? fetch the page ?? save the page ?? parse the page to get urls ?? put urls into url_list ?? reloop 网页收集-避免网页的重复搜集 如何避免网页的重复搜集 ?? spider(url_list)//宽度优先为例 ?? pop a url from url_list ?? fetch the page ?? save the page ?? parse the page to get urls ?? if url not seen before ?? put urls into url_list ?? reloop 网页收集-收集策略 任何搜索引擎都不可能将所有的web页面收集完成。应该尽量收集比较重要的网页.(google覆盖率,45%-55%,2000年)。 这对于那些并不追求很大的数量覆盖率的搜索引擎特别重要。研究表明[Najorkand Wiener, 2001],按照宽度优先搜索方式得到的网页集合要比深度优先搜索得到的集合重要。 网页收集-收集频率 考虑网页的更新频率.研究表明:50%的网页的平均生命周期是50天([Cho and Garcia-Molina,2000],[Cho,2002]),所以我们应该收集那些变化了的网页,这样能减少需要收集的网页数量,提高搜索引擎的时新性。 增量收集:J. Cho([Cho,2002])根据一种网页变化模型和系统所含内容时新性的定义,提出了相应优化的网页搜集策略。 网页收集-并行抓取 现实的网页收集会同时有几百、几千个爬虫同时运行。这些爬虫之间协作抓取。 ?? 需要考虑的问题: ?? 待抓取url_list的划分 网页收集-并行抓取 网页收集-抓取友好性 提供Web服务的机器,能够处理的未完成的TCP连接数有一个上限。当一个服务器的连接列达到它定义的限制时,任何新的连接请求都会被忽略,直到队列可用为止。 多个爬虫并行的工作,如果没有控制,势必造成对于搜集站点的类似于DoS攻击的副作用,也就是占用了web服务器的连接数限制,导致后续请求被忽略。 所以系统应该控制同一时刻访问同一站点的爬虫数,避免某些站点负载过重。 网页收集-抓取友好性 一种可行的方案是设置多个主机队列,同一站点的url放在同一个主机队列中.并且控制对同一个主机队列访问的爬虫数. 搜索引擎 工作流程和体系结构 ?? 抓取 ?? 预处理 ?? 索引和查找 ?? 结果排序 ?? 其他 预处理 ?? 网页消重和网页净化. ?? 网页重要性计算 消重 内容完全相同的网页称作镜像网页,主题内容相同的网页称作转载网页。就消除主题内容重复的网页而言,我们完全可以把镜像网页看作转载网页的特例来处理。由此,所谓网页消重就是指去除网页集合中转载网页的过程。 消重 天网在2003年的一次大规模统计分析表明,网页的重复率平均大约为4。也就是说,当你通过一个URL在网上看到一篇网页的时候,平均还有另外3个不同的URL也给出相同或者基本相似的内容。这种现象对于广大的网民来说是有正面意义的,因为有了更多的信息访问机会。但对于搜索引擎来说,则主要
文档评论(0)