搜索引擎中的信息检索和链接分析技术.ppt

搜索引擎中的信息检索和链接分析技术.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
32 The Real World P: U: 计算机系的教授 某大学 学生 Y 的页面 存放在学校的网站上 里面还有到卖地毯的网站的链接 The Real World 巨大的商业利益总 是充满诱惑的 … 33 The Real World Any algorithm can be and will be attacked by spammers … thats what keeps this job interesting 任何算法都会而且一定会被网页作弊者所攻破 … 这使得反作弊的工作会一直很有趣,不是么? 34 The Real World 魔高一尺, 道高一丈 … 35 搜索引擎中的信息检索和 链接分析技术 朱会灿 Overview 简介 排序 网页作弊 (Spamming) 信息检索 (IR) 在 Google 的成功应用 远景展望 3 Introduction: History WWW 出现 (1992) Mosaic/Netscape 出现 (1993-95) 网络爬虫 (Crawler) 出现 (1994): M. Mauldin (founded Lycos) Yahoo 成立 : 1994, 网页目录 搜索引擎出现 1994-1996 (InfoSeek, Lycos, Altavista, Excite, Inktomi, …) Google 创立 : 1996-98 ? 试图把搜索技术卖出去。 ? 没找到买主。都忙着办门户网站 (portals) 4 The Pipeline Crawling: 循着链接下载网页 Indexing: 纪录哪个词在哪儿出现 Ranking: 从几十亿网页中找出跟用户查询最匹配的 Serving: 处理查询,生成结果网页 5 6 Ranking: History 早期搜索引擎都是基于信息检索技术 (IR) ? 领域出现于 1950 年代 ? 主要着眼于文本检索 ? 主要使用统计方法来分析文本 ? 运用 heuristics – 基于词的位置分配权重 ( 靠开始或者在题目里比较好 ) – 多词查询时,这些词在文章中越近越好 – 普通词不重要 (e.g. the, 的 ) Information Retrieval (IR) TF x IDF: ? TF (Term frequency): 一个词在一篇文章中出现的次数 ? IDF (Inverse document frequency): 总文章数 /( 含有这个词的文 章数 ) ? 乘积越高,则相应的文章对该词匹配越精确:这个词在这篇文 章中出现的次数多,而且包含这个字的文章少。 聚类 (clustering): 把相关的信息合到一起 分类 (classification): 根椐某个标准,把内容归类。 信息提取 (extraction): 从文本中提取关键词 7 8 Ranking: Drawbacks of IR 对网页搜索: IR 必要但不充分 ? 不能表达内容权威性 ( authority) – 在 上的一片文章和在 某个 blog 上重贴的版本得分一样 ? 不能表示 web navigation – 搜索 ibm 是在找 – 可能看起来没有一篇 IBM 季度报告重要 9 Ranking: Link Analysis 但是好在有链接 … ? 网上导航的工具 ? 表示目标网页重要 ? 对目标网页的推荐 ? 还描述目标网页 (Anchor text) Ranking: Link Analysis 链接分析:利用链接信息来判断网页重要性 ? Hubs and Authorities (Jon Kleinberg) ? PageRank (Brin and Page) 10 Hubs and Authorities 权威 (Authority) 网页 : 最经常被指向的网页 : , 中心 (Hub) 网页 : 有很多外向链接的网页。链接多有相关主题 : 只有指向最好的中心网页才是最好的权威网页。只有指向最好 的权威网页才是最好的中心网页。 HITS (Hyperlink-Induced Topic Search): Base Results Base Results Base Results 11 HITS: Pros and Cons Pros: ? 自动主体分组 : 如果一个检索词有多个意义,多组权威和中心 网页自动识别: Apple ? 对立的观点自动分开 : 房地产价格趋势 . Cons: ? 在线计算 : 长处理时间 , 只对小的索引有效 . ? 对极其明确范围的检索不太好 : [adobe reader 7.0.8] 12 Pageran

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档