12-互联网搜索Searching the Web-3-Web characterization.pptVIP

  • 7
  • 0
  • 约4.66千字
  • 约 31页
  • 2017-02-16 发布于湖北
  • 举报

12-互联网搜索Searching the Web-3-Web characterization.ppt

12.互联网搜索Searching the Web Web 特性 Web测度 Web图结构 Web有多大 ? 存在的问题 从某种意义上说,Web是无限的 动态内容, 比如日历 Soft 404,对应错误的网址返回一个页面: /anything is a valid page 静态网页包含重复内容,很大一部分是镜像 (~20-30%) 有一些服务器很少被连接 谁会关心? 最终用户 搜索引擎设计者 搜索引擎抓取策略,对召回率的影响 基于 搜集随机页面的 统计方法 Random queries 随机构造查询,提交给搜索引擎E1,从前100个结果中随机选择一个页面p,通过在页面p中选取6-8个低频词并提交给第二个搜索引擎E2,看p在不在E2中出现;同样,提交查询给E2,获得查询结果页面,看在不在E1中出现。反复进行以上操作从而得到E1与E2所包含网页数目的比例。 Random searches 从给定的搜索记录中随机选取,向搜索引擎提交,从查询结果获取随机页面。 Random IP addresses 产生随机IP地址,向它发送页面请求,收集此IP地址上的web服务器的页面。 Random walks 如果web图结构是一个强连接图的话,可以发起一个随机游走,并逐渐收敛到稳态。随机游走过程中 当前URL 为随机选取的URL。 通过 Random Queries进行URL 采样

文档评论(0)

1亿VIP精品文档

相关文档