- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture21-linkanalysis 第20讲 信息采集 现代信息检索导论 教学课件
第21讲 链接分析 Link Analysis 改进的PageRank公式 随机冲浪或随机游走(Random Walk)模型:到达u的概率由两部分组成:一部分是直接随机选中的概率(1-d)或(1-d)/N,另一部分是从指向它的网页顺着链接浏览的概率,则有 上述两个公式中,后一个公式所有网页PageRank的和为1,前一个公式的PageRank和为N(1-d)+d 。 可以证明,PageRank是收敛的。计算时,PageRank很难通过解析方式求解,通常通过迭代方式求解。d通常取0.85 或 PageRank面对的Spamming问题 SEO (Search Engine Optimization):通过正当或者作弊等手段提高网站的检索排名(包括PageRank)排名。 因此,实际中的PageRank实现必须应对这种作弊,实际实现复杂得多。实际中往往有多个因子(比如内容相似度)的融合。 上一讲回顾 锚文本 引用分析 PageRank HITS: Hub节点Authority节点 提纲 IBM的HITS算法 HITS(Hyperlink-Induced Topic Search) 每个网页计算两个值 Hub:作为目录型或导航型网页的权重 Authority:作为权威型网页的权重 Hub Authority Authority Authority Hub * 例子 * 查询[Chicago Bulls]的权威网页 0.85 /bulls 0.25 /people/jmiller/bulls.htm “da Bulls” 0.20 /SportServer/basketball/nba/chi.html “The Chicago Bulls” 0.15 U/rynocub/bulls.htm “The Chicago Bulls Home Page ” 0.13 /Colosseum/6095 “Chicago Bulls” (Ben Shaul et al, WWW8) * [Chicago Bulls]的权威网页 * 查询[Chicago Bulls]的导航型网页 1.62 /Colosseum/1778 “Unbelieveabulls!!!!!” 1.24 /cgi-bin/webring?ring=chbulls “Chicago Bulls” 0.74 /Hollywood/Lot/3330/Bulls.html “Chicago Bulls” 0.52 /web_position/kw-search-15-M2.html “Excite Search Results: bulls ” 0.52 /wordltd/bball/bulls.html “Chicago Bulls Links” (Ben Shaul et al, WWW8) * [Chicago Bulls]导航型网页的例子 计算方法 一个网页被越重要的导航型网页指向越多,那么它的Authority越大; 一个网页指向的高重要度权威型网页越多,那么它的Hub越大。 HITS算法也是收敛的,也可以通过迭代的方式计算。 A H * HITS算法的实际计算过程 首先进行Web搜索; 搜索搜索的结果称为根集(root set); 将所有链向种子集合和种子集合链出的网页加入到种子集合; 新的更大的集合称为基本集(base set); 最后,在基本集上计算每个网页的hub值和authority值 (该基本集可以看成一个小的Web图)。 根集和基本集 (1) 根集 根集和基本集 (2) 根集中节点链向的网页节点 根集 根集和基本集 (3) 指向根集节点的那些节点 根集 现代信息检索 Introduction to Information Retrieval 现代信息检索 中科院研究生院2011年秋季课程《现代信息检索》 更新时间: Modern Information Retrieval 授课人:王斌 /~wangbin *改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/ 2011/12/01 提纲 上一讲回顾 锚文本 引用分析 PageRank HITS: Hub节点Authority节点 上一讲回顾 锚文本 引用分析 PageRank
您可能关注的文档
- GPS出租车定位管理系1.doc
- GRE – Graduate Records Examination.pdf
- GQ001石膏板隔墙培训 装饰施工分项作业培训教材 教学课件.ppt
- Groovy DSLs 教学课件.ppt
- Graphene-based optical modulator 超全面的石墨烯介绍.ppt
- GSM数字移动通信系统图解讲义.ppt
- GUI 编程 java项目课件.ppt
- Grammatica Latina 拉丁文语法.pdf
- g《现代物流管理》第六章 运输1.ppt
- GY、GYU型 便拆式管道泵产品培训讲义.ppt
- Lecture23 Sung Ming Confucianism Nov 29 Chinese Philosophy Lectures杜兰大学中国哲学课堂教学PPT.ppt
- Lecture22 Sung Ming Confucianism Nov 22 Chinese Philosophy Lectures杜兰大学中国哲学课堂教学PPT.ppt
- Lecture24 Sung Ming Confucianism Dec 1 Chinese Philosophy Lectures杜兰大学中国哲学课堂教学PPT.ppt
- Lecture25 Contemporary Confucianism Dec 6 Chinese Philosophy Lectures杜兰大学中国哲学课堂教学PPT.ppt
- Lecture26 Contemporary Confucianism Dec 8 Chinese Philosophy Lectures杜兰大学中国哲学课堂教学PPT.ppt
- Lecture3 信息安全测评与风险评估 教学课件.ppt
- lecture4-indexconstruction 第4讲 索引构建 现代信息检索导论 教学课件.ppt
- lecture3-tolerant-retrieval 第3讲 词典及容错式检索 现代信息检索导论 教学课件.ppt
- lecture5-indexcompression 第5讲 索引压缩 现代信息检索导论 教学课件.ppt
- Lecture4 信息安全测评与风险评估 教学课件.ppt
文档评论(0)