lecture20-crawling 第20讲信息采集现代信息检索导论　教学课件.ppt

下载文档 降价啦

4
0
约4.77千字
约 49页
2018-01-28 发布于浙江
举报
版权申诉
保障服务

lecture20-crawling 第20讲信息采集现代信息检索导论　教学课件.ppt

1、本文档共49页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

lecture20-crawling 第20讲信息采集现代信息检索导论　教学课件

第20讲信息采集 Crawling * Mercator 中的待采集URL缓冲池 URL从上部流入缓冲池前端队列(Front queue)管理优先级 * Mercator 中的待采集URL缓冲池 URL从上部流入缓冲池前端队列(Front queue)管理优先级后端队列(Back queue) 实现礼貌性 * Mercator 中的待采集URL缓冲池 URL从上部流入缓冲池前端队列(Front queue)管理优先级后端队列(Back queue) 实现礼貌性每个队列都是FIFO * Mercator 中的待采集URL缓冲池 : 前端队列(Front queue) * Mercator 中的待采集URL缓冲池 : 前端队列(Front queue) 优先级分配器给每个URL分配一个0到F之间的优先级整数 * Mercator 中的待采集URL缓冲池 : 前端队列(Front queue) 优先级分配器给每个URL分配一个0到F之间的优先级整数然后将URL添加到相应的队列中 * Mercator 中的待采集URL缓冲池 : 前端队列(Front queue) 优先级分配器给每个URL分配一个0到F之间的优先级整数然后将URL添加到相应的队列中分配优先级可以基于启发式信息：更新率、PageRank等等 * Mercator 中的待采集URL缓冲池 : 前端队列(Front queue) 从前端队列中进行选择由后端队列发起选择一个前端队列来选择下一个URL：轮询法(Round robin)、随机法或者更复杂的方法但是上述选择过程倾向于高优先级的前端队列 * Mercator 中的待采集URL缓冲池 : 后端队列(Back queue) * Mercator 中的待采集URL缓冲池 : 后端队列(Back queue) 恒定情形1：当采集器在运行时，每个后端队列不为空恒定情形2：每个后端队列中仅存放来自同一主机的URL 维护一张主机到后端队列的表 * Mercator 中的待采集URL缓冲池 : 后端队列(Back queue) 在堆中：每个后端队列对应一个元素元素值为该队列对应的主机重新访问的最早时间 te 该时间te 由下列因素确定 (i) 上次访问该主机的时间 (ii) 时间间隔的启发式方法 * Mercator 中的待采集URL缓冲池 : 后端队列(Back queue) 抓取器与后端队列交互方法：重复下列操作： (i) 抽取堆中的当前根节点 q (q 是一个后端队列) 并且 (ii) 抓取q中的头部URL u . . . . . .直至 q 为空… (也就是说一直抓到 u为q中最后一个URL为止) * Mercator 中的待采集URL缓冲池 : 后端队列(Back queue) 一旦后端队列 q为空: 重复下列操作 (i) 从前端队列中将一系列URL u推入并且 (ii) 将 u 加到相应的后端队列中. . . . . . 直到得到一个u，u的主机没有对应的后端队列为止然后将 u 放入 q 并为它建立一个堆现代信息检索 Introduction to Information Retrieval 现代信息检索中科院研究生院2011年秋季课程《现代信息检索》更新时间： Modern Information Retrieval 授课人：王斌 /~wangbin *改编自”An introduction to Information retrieval”网上公开的课件，地址 /IR-book/ 2011/12/01 提纲上一讲回顾一个简单的采集器一个真实的采集器提纲上一讲回顾一个简单的采集器一个真实的采集器 * 搜索广告 * Google次高竞标价格拍卖机制 bid: 每个广告商为每次点击给出的最大投标价格 CTR: 点击率，即一旦被显示后被点击的比率。CTR是一种相关性度量指标。 ad rank: bid × CTR: 这种做法可以在 (i) 广告商愿意支付的价钱 (ii) 广告的相关度高低之间进行平衡。 rank: 拍卖中的排名 paid: 广告商的次高竞标价格 * Google次高竞标价格拍卖机制次高竞标价格拍卖：广告商支付其维持在拍卖中排名所必须的价钱(加上一分钱) (用它的下一名计算其支付价格) price1 × CTR1 = bid2 × CTR2

您可能关注的文档

文档评论（0）

qiwqpu54 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

lecture20-crawling 第20讲信息采集现代信息检索导论　教学课件.ppt