- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索 第三讲 Web Spider 提纲 概述 Spider的基本工作原理 Spider的关键问题和技术 网站运营者对Spider的态度 小结 一、概述 Web Spider的定义 网络蜘蛛(又被称为网络爬行器,网络机器人,是一种按照一定的规则,自动的抓取互联网信息的程序或者脚本。 Spider,Crawler,Robot 其他有些IR系统获得文档内容相对容易一些 比如,对硬盘上所有文档建立索引只需要基于文件系统进行迭代式扫描即可 但是对于Web IR系统来说,获得文档内容需 要更长的时间 . . . . . . 这是因为存在延迟 需要解决许多关键问题 二、Spider基本工作原理 (一)基本工作流程: (1)初始化采集URL种子队列; (2)重复如下过程: 从队列中取出URL 下载并分析网页 从网页中抽取更多的URL 将这些URL放到队列中 这里有个“Web的连通性很好”的基本假设 作弊方法 背景文字、超小号文字 故意制作大量的链接指向一个网址 链接重定向 使用程序机在web2.0等网站大量的群发指向您网站的链接 通过扫描网站漏洞在高质量站点中加入隐藏链接 不具推荐意义的交换链接等等 1、爬行(更新)周期的确定 2、爬行器要遵守采集协议 1994年起使用的采集器协议(即规定了爬行器对网站的访问限制) robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt 是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 User-agent: *(网络蜘蛛) Disallow: / (拒绝) User-agent: baiduspider Disallow: /文件夹 1/ User-Agent: Googlebot Disallow: /文件夹 2/ 如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。 如果网站管理员发现某个蜘蛛有问题,就通过其标识来和其所有者联系。 五、小结 任意一个Spider应该做到: (1)能够进行分布式处理 (2)支持规模的扩展:能够通过增加机器支持 更高的采集速度 (3)优先采集高质量网页 (4)能够持续运行:对已采集网页进行更新 * 为什么要进行网页采集 搜索引擎一直专注于提升用户的体验度 用户体验度反映在三个方面: 准、全、快 。 查准率、查全率和搜索速度 怎样速度最快? 检索系统的基本模式 互联网 匹配 检索结果 用户需求 怎样速度最快? 互联网 匹配 检索结果 用户需求 网页 网页采集 Web搜索引擎必须要要采集网页文档,这是搜索引擎工作的前提 * 课堂思考题: 下列Spider有什么问题? urlqueue := (some carefully selected set of seed urls) while urlqueue is not empty: myurl := urlqueue.getlastanddelete() mypage := myurl.fetch() fetchedurls.add(myurl) newurls := mypage.extracturls() for myurl in newurls: if myurl not in fetchedurls and not in urlqueue: urlqueue.add(myurl) addtoinvertedindex(mypage) * * (二)简单Spider的问题 规模问题: 必须要分布式处理 重复网页:必须要集成重复检测功能 作弊网页和采集器陷阱:必须要集成作弊网页检测功能 礼貌性问题: 对同一网站的访问按遵照协议规定,并且访问的间隔必须要足够 新鲜度(freshness)问题:必须要定期更新或者重采 由于Web的规模巨大,我们只能对一个小的网页子集频繁重采 同样,这也存在一个选择或者优先级问题 * * 三、Spider的关键问题和技术 (一)抓取策略 怎样能查得更全? 理想情况:互联网上的所有网页 遍历 * 遍历互联网 深度优先 广度优先 1 9 2 5 6 3 4 7 8 1 5 2 3 4 6 7 8 9 “遍”历行得通吗? 要抓取互联网上所有的网页几乎是不可能的 原因一方面是抓取技术的瓶颈 无法遍历所有的网页,有许多网页无法从其它网页的链接中找到 另一个原因是存储技术和处理技术的问题 如果按照每个页面的平均大小为20K计算,xx亿网页的容量是多少? 即使能够存储,下载也存在问题(时间开销太大)。 同时,
文档评论(0)