ch02_信息采集概述.pptVIP

下载本文档

2
0
约1.18万字
约 75页
2016-04-27 发布于湖北
举报
版权申诉

ch02_信息采集概述.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第二章信息采集信息采集搜索引擎中的第一个组件是信息采集系统，其主要功能是文本采集和文本转换。文本采集用于发现文档，并使这些文档能够被搜索到。文本采集通常需要通过爬行（crawling）或者扫描互联网、企业内部网、桌面或者其他信息源来建立一个文档集合。在一些搜索引擎应用系统中，爬虫（crawler）的主要任务是发现和抓取文档。爬虫的类型有很多种，但最普遍的是网络爬虫，网络爬虫通过追踪网页上的超链接来找到并下载新的网页。信息采集信息采集面临的主要问题互联网的规模非常庞大，没有人能够确定互联网上网页的具体数目，而且对于大多数组织来说，没有足够的存储空间来存储全部网页，甚至是大部分网页。互联网上的网页通常不受搜索引擎数据库创建者的控制，即便知道想要从拷贝所有的网页，也没有简单的方法能够知道这个站点有多少个页面。主要内容网络爬虫爬虫抓取原理 Robots协议网页存储重复检测 2.1 网络爬虫爬虫是一种自动抓取万维网网页信息的机器人。它首先是一组运行在计算机中的程序，在搜索引擎系统中负责抓取时新的且公共可访问的Web网页、图片和文档资源等。这种抓取的过程为通过下载一个网页，分析其中的链接，继而漫游到其它链接指向的网页，循环往复。种子站点是爬虫开始抓取的起点，通常为各大门户网站和官方网站的首页等 . 2.1 网络爬虫爬虫通过网页中的URL来发现和抓取新的网页 URL是 “Uniform Resource Locator”（统一资源定位器）的缩写，它是用在万维网和其它万维网资源中的一种编址系统，由三部分组成：资源类型、存放资源的主机域名、资源文件名。爬虫面临的主要问题如何能够高效处理互联网上大量出现的新网页，而且如果上次爬虫抓取过的网页发生了变化，如何保证所抓取的网页是“时新的” 1、通用爬虫框架 2、万维网蝶型结构 3、种子URL 爬虫尽可能选择蝴蝶结的左部或中部为起始点网页分为目录型和权威型网页目录型：服务于普通网民权威型：受关注度高，重要 4、优秀爬虫的特性高性能存储方式、磁盘访问方式、数据结构可扩展性服务器数量、爬虫数量数据中心分布健壮性爬虫死掉、服务器宕机友好性网站私密保护被抓取网站负载 2.2 爬虫抓取原理网页获取网页抓取策略不重复抓取策略抓取提速策略暗网抓取网页重访策略 1、网页获取网页获取通过URL语法实现 protocol :// hostname[:port] / path / [;parameters][?query]#fragment protocol包括HTTP、HTTPS、FTP、FILE、THUNDER等传统网叶爬虫一般通过HTTP和HTTPS协议获取网页 1、网页获取 GET与POST请求 GET /csinfo/people.html HTTP/1.0 获取数据头部信息与页面内容明文浏览器有历史数据 POST /csinfo/people.asp HTTP/1.1 name1=value1name2=value2 传递数据浏览器无历史数据数据隐藏在数据包中，安全性高 2、网页抓取策略深度优先策略宽度优先策略非完全PageRank策略其他策略深度优先策略深度优先关系类似一种继承上的优先关系，是一种首先选择某个分支，继而深入到不能深入的情况下才考虑其它分支的策略。宽度优先策略又称为广度优先或层次优先，是一种层次型距离不断增大的遍历方式，类似长幼有序的规则。祖先的优先级最高，第2层的优先级大于第3层，每层的内部优先级以年长者优先。宽度优先策略选择宽度优先的原因：重要的网页往往离种子站点的距离较近。万维网的深度没有我们想象得那么深，到达某一个网页的路径通常很多，比如有研究表明，中文万维网直径的长度只有17. 宽度优先规则有利于多爬虫合作抓取，这是因为该规则开始抓取的网页通常都是站内网页，逐渐才会遇到站外链接，因此抓取的封闭性较强。宽度优先策略进行宽度优先遍历时，必须要有一个队列数据结构支持。这个队列理解为其工作负载队列，只要其中存在没有完成的抓取任务，就需要提取对头位置的网页继续抓取。直到完成全部抓取任务，工作负载队列为空为止。宽度优先策略看似机械，但实际上网页的抓取顺序基本是按照网页的重要性排序的如某个网页包含很多入链，则更有可能被早早抓到，而入链个数从侧面体现了网页的重要性，即实际上宽度优先隐含了一些网页的优先级设置按照距离递增的宽度优先抓取顺序恰好符合重要网页优先抓取的要求；若按照深度优先规则抓取，不仅破坏了重要优先的原则，而且破坏了抓取的封闭性，不利于多爬虫的合作抓取。非完全PageRank策略 PageRank是一种链接分析算法，用于衡量网页的重要性。它是一种全局算法