lecture20-crawling 信息检索导论 王斌 PPT 课件 第20章.pptx

lecture20-crawling 信息检索导论 王斌 PPT 课件 第20章.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture20-crawling 信息检索导论 王斌 PPT 课件 第20章

第20讲 信息采集 Crawling 1 2011/12/01 提纲 2 上一讲回顾 一个简单的采集器 一个真实的采集器 提纲 3 上一讲回顾 一个简单的采集器 一个真实的采集器 4 搜索广告 4 5 Google次高竞标价格拍卖机制 bid: 每个广告商为每次点击给出的最大投标价格 CTR: 点击率,即一旦被显示后被点击的比率。CTR是一种相关性度量指标。 ad rank: bid × CTR: 这种做法可以在 (i) 广告商愿意支付的价钱 (ii) 广告的相关度高低 之间进行平衡。 rank: 拍卖中的排名 paid: 广告商的次高竞标价格 5 6 Google次高竞标价格拍卖机制 次高竞标价格拍卖: 广告商支付其维持在拍卖中排名所必须的价钱(加上一分钱) (用它的下一名计算其支付价格) price1 × CTR1 = bid2 × CTR2 (使得排名rank1=rank2) price1 = bid2 × CTR2 / CTR1 p1 = bid2 × CTR2/CTR1 = 3.00 × 0.03/0.06 = 1.50 p2 = bid3 × CTR3/CTR2 = 1.00 × 0.08/0.03 = 2.67 p3 = bid4 × CTR4/CTR3 = 4.00 × 0.01/0.08 = 0.50 6 7 置换和最小值:例子 文档 1: {sk} 文档2: {sk} 使用mins∈d1 π(s) = mins∈d2 π(s) 作为文档 d1 和 d2是否近似重复的测试条件? 该例子中置换π表明: d1 ≈ d2 7 8 例子 h(x) = x mod 5 g(x) = (2x + 1) mod 5 8 最终的梗概 9 本讲内容 网页采集的概念 一个简单的采集器 一个真实的采集器 9 提纲 10 上一讲回顾 一个简单的采集器 一个真实的采集器 11 采集会有多难? Web搜索引擎必须要要采集网页文档 其他有些IR系统获得文档内容相对容易一些 比如,对硬盘上所有文档建立索引只需要基于文件系统进行迭代式扫描即可 但是对于Web IR系统来说,获得文档内容需要更长的时间 . . . . . . 这是因为存在延迟 但是这真的是系统设计中的一个难点吗? 11 12 基本的采集过程 初始化采集URL种子队列; 重复如下过程: 从队列中取出URL 下载并分析网页 从网页中抽取更多的URL 将这些URL放到队列中 这里有个“Web的连通性很好”的基本假设 12 13 课堂思考题: 下列爬虫有什么问题? urlqueue := (some carefully selected set of seed urls) while urlqueue is not empty: myurl := urlqueue.getlastanddelete() mypage := myurl.fetch() fetchedurls.add(myurl) newurls := mypage.extracturls() for myurl in newurls: if myurl not in fetchedurls and not in urlqueue: urlqueue.add(myurl) addtoinvertedindex(mypage) 13 14 上述简单采集器的问题 规模问题: 必须要分布式处理 我们不可能索引所有网页,必须要从中选择部分网页,如何选择? 重复网页:必须要集成重复检测功能 作弊网页和采集器陷阱:必须要集成作弊网页检测功能 礼貌性问题: 对同一网站的访问按遵照协议规定,并且访问的间隔必须要足够 新鲜度(freshness)问题:必须要定期更新或者重采 由于Web的规模巨大,我们只能对一个小的网页子集频繁重采 同样,这也存在一个选择或者优先级问题 14 15 采集规模的数量级 如果要在一个月内采集20,000,000,000个页面. . . . . . 那么必须要在一秒内大概采集 8000个网页! 由于我们采集的网页可能重复、不可下载或者是作弊网页,实际上可能需要更快的采集速度才能达到上述指标 15 16 采集器必须做到 鲁棒性 能够处理采集器陷阱、重复页面、超大页面、超大网站、动态页面等问题 16 礼貌性 不要高频率采集某个网站 仅仅采集robots.txt所规定的可以采集的网页 17 Robots.txt文件 1994年起使用的采集器协议(即规定了采集器对网站的访问限制) 例子: User-agent: * Disallow: /yoursite/temp/ User-age

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档