网站大量收购独家精品文档,联系QQ:2885784924

lecture20-crawling 第20讲 信息采集 现代信息检索导论 教学课件.ppt

lecture20-crawling 第20讲 信息采集 现代信息检索导论 教学课件.ppt

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture20-crawling 第20讲 信息采集 现代信息检索导论 教学课件

第20讲 信息采集 Crawling * Mercator 中的待采集URL缓冲池 URL从上部流入缓冲池 前端队列(Front queue)管理优先级 * Mercator 中的待采集URL缓冲池 URL从上部流入缓冲池 前端队列(Front queue)管理优先级 后端队列(Back queue) 实现礼貌性 * Mercator 中的待采集URL缓冲池 URL从上部流入缓冲池 前端队列(Front queue)管理优先级 后端队列(Back queue) 实现礼貌性 每个队列都是FIFO * Mercator 中的待采集URL缓冲池 : 前端队列(Front queue) * Mercator 中的待采集URL缓冲池 : 前端队列(Front queue) 优先级分配器给每个URL分配一个0到F之间的优先级整数 * Mercator 中的待采集URL缓冲池 : 前端队列(Front queue) 优先级分配器给每个URL分配一个0到F之间的优先级整数 然后将URL添加到相应的队列中 * Mercator 中的待采集URL缓冲池 : 前端队列(Front queue) 优先级分配器给每个URL分配一个0到F之间的优先级整数 然后将URL添加到相应的队列中 分配优先级可以基于启发式信息:更新率、PageRank等等 * Mercator 中的待采集URL缓冲池 : 前端队列(Front queue) 从前端队列中进行选择由后端队列发起 选择一个前端队列来选择下一个URL:轮询法(Round robin)、随机法或者更复杂的方法 但是上述选择过程倾向于高优先级的前端队列 * Mercator 中的待采集URL缓冲池 : 后端队列(Back queue) * Mercator 中的待采集URL缓冲池 : 后端队列(Back queue) 恒定情形1: 当采集器在运行时,每个后端队列不为空 恒定情形2: 每个后端队列中仅存放来自同一主机的URL 维护一张主机到后端队列的表 * Mercator 中的待采集URL缓冲池 : 后端队列(Back queue) 在堆中: 每个后端队列对应一个元素 元素值为该队列对应的主机重新访问的最早时间 te 该时间te 由下列因素确定 (i) 上次访问该主机的时间 (ii) 时间间隔的启发式方法 * Mercator 中的待采集URL缓冲池 : 后端队列(Back queue) 抓取器与后端队列交互方法: 重复下列操作: (i) 抽取堆中的当前根节点 q (q 是一个后端队列) 并且 (ii) 抓取q中的头部URL u . . . . . .直至 q 为空… (也就是说一直抓到 u为q中最后一个URL为止) * Mercator 中的待采集URL缓冲池 : 后端队列(Back queue) 一旦后端队列 q为空: 重复下列操作 (i) 从前端队列中将一系列URL u推入并且 (ii) 将 u 加到相应的后端队列中. . . . . . 直到得到一个u,u的主机没有对应的后端队列为止 然后将 u 放入 q 并为它建立一个堆 现代信息检索 Introduction to Information Retrieval 现代信息检索 中科院研究生院2011年秋季课程《现代信息检索》 更新时间: Modern Information Retrieval 授课人:王斌 /~wangbin *改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/ 2011/12/01 提纲 上一讲回顾 一个简单的采集器 一个真实的采集器 提纲 上一讲回顾 一个简单的采集器 一个真实的采集器 * 搜索广告 * Google次高竞标价格拍卖机制 bid: 每个广告商为每次点击给出的最大投标价格 CTR: 点击率,即一旦被显示后被点击的比率。CTR是一种相关性度量指标。 ad rank: bid × CTR: 这种做法可以在 (i) 广告商愿意支付的价钱 (ii) 广告的相关度高低 之间进行平衡。 rank: 拍卖中的排名 paid: 广告商的次高竞标价格 * Google次高竞标价格拍卖机制 次高竞标价格拍卖: 广告商支付其维持在拍卖中排名所必须的价钱(加上一分钱) (用它的下一名计算其支付价格) price1 × CTR1 = bid2 × CTR2

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档