- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Chapter7链接分析研讨
Chapter 7 链接分析 陈珂锐 chenke0616@163.com 计算机与信息工程学院 目录 1. 随机游走模型(Random Surfer Model) 2. 子集传播模型 3. 链接分析算法之间的关系 4. PageRank算法 5. HITS算法 6. SALSA算法 7. 主题敏感PageRank 8. Hilltop算法 9. 其他改进算法 1 随机游走模型(1) 随机游走模型针对浏览网页的用户行为建立的抽象概念模型 很多链接分析算法都建立在随机游走模型基础之上 用户打开浏览器第1个网页,假设用一虚拟时钟及时,此时可以设定时间为1,用户点击了页面中的某个链接,进入第2个页面,此时虚拟时钟为2,如果网页包含k个出链,则用户从当前页面跳转到任意一个链接的概率是相等的。 在浏览器中输入网址,直接到达某网页,这个行为称为远程跳转 假设互联网中共有m个页面,则用户跳转到任意一个页面的概率是相等的,即为1/m 1 随机游走模型(2) 2. 子集传播模型(1) 其基本思想是在算法设计时,把互联网网页按照一定规则划分,分为两个甚至是多个子集合。其中某个子集合具有特殊性质,许多算法从这个具有特殊性质的子集合出发,给予子集合内网页初始权值,之后根据这个特殊子集合内网页和其他网页的链接关系,按照一定方式将权值传递到其他网页。 2. 子集传播模型(2) 诸多算法的区别: 如何定义特殊子集合 确定了特殊子集合所具有的性质后,如何对这个特殊子集合内网页给予一定的初始分值?不同算法打分方式各异 从特殊子集合将其分值传播到其他网页时,采取何种传播方式?可传播的距离有多远? 3. 链接分析算法之间的关系 4. PageRank算法 从入链数量到PageRank PageRank计算 链接陷阱(Link Sink)与远程跳转 4. PageRank算法-从入链数量到PageRank 基于如下两个假设: 数量假设:在web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要 质量假设:指向页面A的入链质量不同,质量高的页面通过链接向其他页面传递更多的权值,所以越是质量高的页面指向页面A,则页面A越重要 4. PageRank算法- PageRank计算 4. PageRank算法-链接陷阱 远程跳转是解决链接陷阱的通用方式 即在网页向外传递分值的时候,不限于向出链所指网页传递,也可以以一定的概率向任意其他网页跳转。 为每个页面增加虚拟边,权值得以传递 5. HITS算法 Hub页面和Authority页面 相互增强关系 HITS算法 HITS算法存在的问题 HITS算法和PageRank算法比较 5. HITS算法- Hub页面和Authority页面 Authority页面:与某个领域或者某个话题相关的高质量网页 Eg.搜索引擎领域,Google和百度首页是搜索引擎领域的高质量页面 Eg.视频领域,优酷和土豆 Hub页面:包含很多指向高质量Authority页面链接的网页 Eg.hao123首页 5. HITS算法-相互增强关系 基本假设1:一个好的Authority页面会被很多好的Hub页面指向 基本假设2:一个好的Hub页面会指向很多好的Authority页面 5. HITS算法- HITS算法 5. HITS算法-存在的问题 计算效率较低 主题漂移问题 易被作弊者操纵结果 结构不稳定 5. HITS算法-和PageRank比较 6. SALSA算法 确定计算对象集合 链接关系传播 Authority权值计算 6. SALSA算法-确定计算对象集合 扩展网页集合 在接收到用户查询请求后,利用现有的搜索引擎或者检索系统,获得一批与用户查询在内容上高度相关的网页,以此作为根集。在此基础上,将根集内网页有直接链接关系的网页纳入,形成扩展网页集合,之后根据一定的链接分析方法获得最终搜索结果排名。 转换为无向二分图 如果一个网页包含出链,这些出链指向扩展网页集合内其他节点,则这个网页可被归入Hub集合 如果一个网页包含扩展网页集合内其他节点指向的入链,则可被归入Authority集合。 6. SALSA算法-确定计算对象集合 6. SALSA算法-链接关系传播 Authority节点关系图 节点关系图中边的建立 节点之间的转移概率 6. SALSA算法- Authority权值计算 7. 主题敏感PageRank 主题敏感PageRank与PageRank的差异 主题敏感PageRank计算流程 7. 主题敏感PageRank-与PR的区别 PR算法遵循随机游走模型,主题敏感PR更符合现实的假设 PR是全局性的网页重要性衡量标准,主题敏感PR引入16个主题类型,对于某网页,对应某个主题都有相应的PR值,即每个网
文档评论(0)