- 1、本文档共49页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture20-crawling 第20讲 信息采集 现代信息检索导论 教学课件
第20讲 信息采集 Crawling * Mercator 中的待采集URL缓冲池 URL从上部流入缓冲池 前端队列(Front queue)管理优先级 * Mercator 中的待采集URL缓冲池 URL从上部流入缓冲池 前端队列(Front queue)管理优先级 后端队列(Back queue) 实现礼貌性 * Mercator 中的待采集URL缓冲池 URL从上部流入缓冲池 前端队列(Front queue)管理优先级 后端队列(Back queue) 实现礼貌性 每个队列都是FIFO * Mercator 中的待采集URL缓冲池 : 前端队列(Front queue) * Mercator 中的待采集URL缓冲池 : 前端队列(Front queue) 优先级分配器给每个URL分配一个0到F之间的优先级整数 * Mercator 中的待采集URL缓冲池 : 前端队列(Front queue) 优先级分配器给每个URL分配一个0到F之间的优先级整数 然后将URL添加到相应的队列中 * Mercator 中的待采集URL缓冲池 : 前端队列(Front queue) 优先级分配器给每个URL分配一个0到F之间的优先级整数 然后将URL添加到相应的队列中 分配优先级可以基于启发式信息:更新率、PageRank等等 * Mercator 中的待采集URL缓冲池 : 前端队列(Front queue) 从前端队列中进行选择由后端队列发起 选择一个前端队列来选择下一个URL:轮询法(Round robin)、随机法或者更复杂的方法 但是上述选择过程倾向于高优先级的前端队列 * Mercator 中的待采集URL缓冲池 : 后端队列(Back queue) * Mercator 中的待采集URL缓冲池 : 后端队列(Back queue) 恒定情形1: 当采集器在运行时,每个后端队列不为空 恒定情形2: 每个后端队列中仅存放来自同一主机的URL 维护一张主机到后端队列的表 * Mercator 中的待采集URL缓冲池 : 后端队列(Back queue) 在堆中: 每个后端队列对应一个元素 元素值为该队列对应的主机重新访问的最早时间 te 该时间te 由下列因素确定 (i) 上次访问该主机的时间 (ii) 时间间隔的启发式方法 * Mercator 中的待采集URL缓冲池 : 后端队列(Back queue) 抓取器与后端队列交互方法: 重复下列操作: (i) 抽取堆中的当前根节点 q (q 是一个后端队列) 并且 (ii) 抓取q中的头部URL u . . . . . .直至 q 为空… (也就是说一直抓到 u为q中最后一个URL为止) * Mercator 中的待采集URL缓冲池 : 后端队列(Back queue) 一旦后端队列 q为空: 重复下列操作 (i) 从前端队列中将一系列URL u推入并且 (ii) 将 u 加到相应的后端队列中. . . . . . 直到得到一个u,u的主机没有对应的后端队列为止 然后将 u 放入 q 并为它建立一个堆 现代信息检索 Introduction to Information Retrieval 现代信息检索 中科院研究生院2011年秋季课程《现代信息检索》 更新时间: Modern Information Retrieval 授课人:王斌 /~wangbin *改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/ 2011/12/01 提纲 上一讲回顾 一个简单的采集器 一个真实的采集器 提纲 上一讲回顾 一个简单的采集器 一个真实的采集器 * 搜索广告 * Google次高竞标价格拍卖机制 bid: 每个广告商为每次点击给出的最大投标价格 CTR: 点击率,即一旦被显示后被点击的比率。CTR是一种相关性度量指标。 ad rank: bid × CTR: 这种做法可以在 (i) 广告商愿意支付的价钱 (ii) 广告的相关度高低 之间进行平衡。 rank: 拍卖中的排名 paid: 广告商的次高竞标价格 * Google次高竞标价格拍卖机制 次高竞标价格拍卖: 广告商支付其维持在拍卖中排名所必须的价钱(加上一分钱) (用它的下一名计算其支付价格) price1 × CTR1 = bid2 × CTR2
您可能关注的文档
- Google Earth 摄影测量基础 教学课件.ppt
- GPS出租车定位管理系1.doc
- GRE – Graduate Records Examination.pdf
- GQ001石膏板隔墙培训 装饰施工分项作业培训教材 教学课件.ppt
- Groovy DSLs 教学课件.ppt
- Graphene-based optical modulator 超全面的石墨烯介绍.ppt
- GSM数字移动通信系统图解讲义.ppt
- GUI 编程 java项目课件.ppt
- Grammatica Latina 拉丁文语法.pdf
- g《现代物流管理》第六章 运输1.ppt
- 人教版英语5年级下册全册教学课件.pptx
- 部编人教版2年级上册语文全册教学课件含单元及专项复习.pptx
- 人教版8年级上册英语全册教学课件(2021年8月修订).pptx
- 教科版(2017版)6年级上册科学全册课件+课时练.pptx
- 人教版PEP版6年级英语下册全册教学课件(2022年12月修订).pptx
- 部编人教版2年级下册语文全册课件(2021年春修订).pptx
- 人教版数学6年级下册全册教学课件(2023年教材).pptx
- 湘少版5年级下册英语全册教学课件(2021年春修订).pptx
- 人教PEP4年级下册英语全册教学课件 [2}.pptx
- 人教版6年级上册英语全册教学课件.pptx
最近下载
- 《人生由我》梅耶·马斯克 ppt读书笔记模板.pptx
- 2025届高考专题复习:古诗词鉴赏 课件(共136张PPT).pptx VIP
- (二模)2024~2025 学年度苏锡常镇四市高三教学情况调研(二) 地理试卷(含答案).docx
- Recycle Mike's happy days-Mike's day on the farm(课件)人教PEP版英语六年级下册.pptx
- 2025年《普通高中语文课程标准 .pdf VIP
- 2025届高考语文专题复习:古诗词鉴赏二轮复习策略 课件(共61张PPT).pptx VIP
- 七下语文同步解析与测评人教版电子版.pdf VIP
- 供水设备供货及安装施工方案.docx VIP
- 绿色设计产品评价规范 建筑结构用钢板.pdf VIP
- 高中语文(统编版)必修上册全册单元教材解读课件.pptx
文档评论(0)