第七章-链接分析.ppt

  1. 1、本文档共63页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章-链接分析

Bing Liu, UIC CS583, Bing Liu, UIC 第7章: 链接分析 广东外语外贸大学 杜剑峰 dududjf@ 提纲 介绍 社会关系网分析 同引分析和引文耦合 PageRank HITS 总结 介绍 早期的搜索引擎主要比较查询和索引页面的内容相似度. 也就是说, 它们使用信息检索方法 cosine, TF-IDF, ... 从1996年开始, 业界已经弄清楚仅靠内容相似度是不足够的. 网页数量在上世纪90年代中期快速增加. 搜索“classification technique”, Google估计: 1000万相关网页. 怎样选择仅仅30-40个页面并以合适的顺序呈现给用户? 内容相似度很容易被欺诈. 页面制作者可以重复某些单词和加入很多相关的词, 以此提升页面的排名和使页面关联于大量的查询. 介绍 (续) 大约从1996年左右开始, 研究人员开始关注这个问题. 他们采用超链接. 1997年2月, Yanhong Li (Scotch Plains, NJ) 申请了一个基于超链接的搜索专利. 采用的方法使用超链接中链接文本的单词. 另一方面, 网页由超链接连接在一起, 超链接带有重要的信息. 一些超链接: 组织同一个网站的信息. 其他超链接: 指向其他网站的页面. 这种向外的超链接通常表示一种到指向页面的隐含的权威传递. 被很多其他网页指向的网页很可能包含权威信息. 介绍 (续) 1997年-1998年之间, 出现了两种最具影响力的基于超链接的搜索算法PageRank和HITS. 两种算法都与社会关系网相关. 它们利用Web中的超链接并根据网页的“声望”或“权威”对网页排序. HITS: Jon Kleinberg (Cornel University), at Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, January 1998 PageRank: Sergey Brin and Larry Page, PhD students from Stanford University, at Seventh International World Wide Web Conference (WWW7) in April, 1998. PageRank 是 Google 搜索引擎的核心算法. 介绍 (续) 除了用于搜索排序, 超链接还可以用于寻找Web社区. Web社区是稠密连接的页面的簇, 代表具有特定兴趣的人群. 除了Web中的超链接外, 其他范畴的链接也是有用的. 比如, 用于发现自由文本文档中命名实体(比如个人和组织)的社区. 用于分析电子邮件的社会现象. 提纲 介绍 社会关系网分析 同引分析和引文耦合 PageRank HITS 总结 社会关系网分析 社会关系网是社会实体(组织中的个人, 称作参与者)及其交互和关系的研究. 社会实体的交互和关系可以表示成一个网络或图, 每个顶点(或结点)表示一个参与者, 且 每条边表示一种关系. 从网络中我们可以研究网络结构的性质和每个社会参与者的角色, 地位和声望. 我们还可以寻找不同类型的子图, 即由参与者群体构成的社区. Web中的社会关系网 社会关系网分析对于Web是很有用的, 因为Web本质上就是一个虚拟社会关系网, 其中 每个网页是一个社会参与者, 每个超链接是一种关系. 社会关系网的很多结论都可以调整或扩展到Web范畴中使用. 我们研究两种社会关系网分析, 中心性和权威, 它们与超链接分析和Web搜索紧密相关. 中心性 重要的或突出的参与者是连接到或涉及到大量其他参与者的参与者. 在组织中具有大量联系人或与很多其他人通信的人比较重要. 链接也称作连接. 中心参与者是牵涉到大量连接中的参与者. 中心性度量 度中心性: 中心参与者是拥有与其他参与者的链接最多的参与者. 接近中心性: 中心参与者是到其他参与者距离最短的参与者. 中介中心性: 中介性用来度量参与者对于其他结点对的控制能力. 如果参与者处在非常多结点的交互路径上, 那么它就是一个重要的参与者. 权威 权威相比中心性而言, 是对参与者重要性的一个更加精妙的度量. 区分: 发出的联系 (链出链接) 和接受的联系 (链入链接). 一个权威的参与者是被大量链接指向的参与者. 为了计算权威: 仅使用链入链接. 中心性与权威的不同点: 中心性主要考虑链出链接 权威主要考虑链入链接 权威度量 度权威: 参与者具有越多链入链接, 就越有权威. 邻近权威: 如果能够到达参与者i的参与者与i的平均距离越短, i就约有权威. 等级权威是包含PageRank和HITS在内的大多数网页链接分析算法的基础.

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档