- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ir讲义20131网页采集研讨
第一讲 网页采集 主要内容 为什么要进行网页采集 网页采集器的基本原理 什么样的采集器算好的采集器 网站运营者对采集器的态度 为什么要进行网页采集 搜索引擎一直专注于提升用户的体验度 用户体验度反映在三个方面: 准、全、快 。 查准率、查全率和搜索速度 怎样速度最快? 检索系统的基本模式 互联网 匹配 检索结果 用户需求 怎样速度最快? 检索系统的基本模式 网页 互联网 匹配 检索结果 用户需求 网页采集 需要搜索引擎有一个 强大的网页采集器 在互联中发现、搜集网页信息 第一讲 网页采集 网页采集器的基本原理 网页采集器一般称为“网络蜘蛛”,也叫“网页机器人”。 网络蜘蛛(Web Spider) 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页 从一个网页开始 读取网页的内容,保存下来 找到在网页中的链接地址,然后通过这些链接地址寻找下一个网页 这样一直循环下去 什么样的采集器算好的采集器 搜索引擎一直专注于提升用户的体验度 用户体验度反映在三个方面: 准、全、快 。 查准率、查全率和搜索速度 怎样能查得更全? 理想情况:互联网上的所有网页 遍历 遍历互联网 深度优先 广度优先 1 9 2 5 6 3 4 7 8 1 5 2 3 4 6 7 8 9 “遍”历行得通吗? 要抓取互联网上所有的网页几乎是不可能的 原因一方面是抓取技术的瓶颈 无法遍历所有的网页,有许多网页无法从其它网页的链接中找到 另一个原因是存储技术和处理技术的问题 如果按照每个页面的平均大小为20K计算,xx亿网页的容量是多少? 即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算……)。 同时,由于数据量太大,在提供搜索时也会有效率方面的影响。 设置访问的层数 因此,许多网络蜘蛛只抓取那些重要的网页 评价重要性主要的依据是某个网页的链接深度 有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。 这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。 设置访问的层数 √ X 更新周期 由于网站的内容经常在变化,因此网络蜘蛛需不断的更新其抓取网页的内容 这就需要网络蜘蛛按照一定的周期去扫描网站,查看: 哪些页面是需要更新的页面 哪些页面是新增页面 哪些页面是已经过期的死链接。 搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。 如果更新周期太长,则总会有一部分新生成的网页搜索不到 周期过短,技术实现会有一定难度,而且会对带宽、服务器的资源都有浪费。 更新周期 搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新 对于一些重要的更新量大的网站,更新的周期短 如有些新闻网站,几个小时就更新一次 相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。 一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。 网站运营者对采集器的态度 欢迎 扩大访问量、提高知名度 提供便利 对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。 为了让本网站的网页更全面被抓取到,网站管理员可以建立一个网站地图,即Site Map。许多网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这个文件里面,那么网络蜘蛛可以很方便的把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担。 网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取。 网站运营者对采集器的态度 别惹麻烦 网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。 淘宝网就曾因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。 怎么办?交流 有多种方法可以让网站和网络蜘蛛进行交流 一方面让网站管理员了解网络蜘蛛都来自哪儿,做了些什么 另一方面也告诉网络蜘蛛哪些网页不应该抓取,哪些网页应该更新。 每个网络蜘蛛都有自己的名字 网站和网络蜘蛛进行交流 每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。 网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User-agent,用于标识此网络蜘蛛的
文档评论(0)