005.WebGraphLinkAnalysis.ppt

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
005.WebGraphamp;LinkAnalysis.ppt

* * * * * Andrei Broder等人在2000年比较早的研究了这个问题,他们的研究基于两个Web爬虫各自爬取的超过2亿个网页和15亿个超链接,他们认为这些网页具有一种类似“领结(bow tie)” 的结构。 领结的形状大致是中间一个大的“结”以及两边各一个三角形的“花”,在每个“花”上面附着了一些穗状的“花边”,而两个花之间还有一条长的“项圈 ”让领结可以套在脖子上。中间的“结”是由约5600万网页组成的SCC(strong connected component,强连接组件),左边和右边的花分别是IN组件和OUT组件,分别包含4400万网页。剩下的4400万网页则是花上的穗状物 (TENDRIL组件)。在SCC组件中,任意两个网页都可以通过很短的有向链接路径到达彼此,它们是整个Web的核心部分。IN组件里的网页可以链入 SCC,但无法从SCC链回来,这些一般是比较新的网页还没有被大家所发现并链接到。OUT组件则是可以从SCC链入但不包含链回SCC的链接,这些可能 是一些只包含内部链接的企业网站。TENDRIL组件则是和IN或OUT组件相连但并不和SCC组件有较直接联系的网页,有趣的是,TENDRIL组件中 的一小部分可以联系IN和OUT组件而形成的“项圈”部分。还有很少一部分的网页是不被链接到的,不属于以上任何一个组件。这项结果中最令人惊奇的部分是 它显示SCC部分(整个 Web 中相互链接最稠密的部分,因而通常也是最经常浏览的部分,通常具有较高的 rank 值)的大小只占整个 Web 的一小部分,这暗示Web上可能大量充斥的是那些没多少“价值”的网页。 * * * * * * * * * * 你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。这就是六度分割理论,也叫小世界理论。 几年前一家德国报纸接受了一项挑战,要帮法兰克福的一位土耳其烤肉店老板,找到他和他最喜欢的影星马龙·白兰度的关联。结果经过几个月,报社的员工发现,这两个人只经过不超过六个人的私交,就建立了人脉关系。原来烤肉店老板是伊拉克移民,有个朋友住在加州,刚好这个朋友的同事,是电影《这个男人有点色》的制作人的女儿在女生联谊会的结拜姐妹的男朋友,而马龙·白兰度主演了这部片子。 * * * * * * * * * * * * * * * * * * * * * * * chenguang@ 图论、线性代数若干概念回顾 图,有向图,邻接矩阵,两节点间的距离(d),图的半径(r),图的中心(c),图的连通性 d(u,v):从u到v的最短路径的长度 r(G):最大的距离d(u,v) c(G):具有最短半径的节点 矩阵(A),矩阵的转置(AT),行列式(|A|),特征值,特征向量,线性相关性 * chenguang@ 应用举例:Co-citation分析 给定一个文献的集合,希望表达这些文献两两被同时(同一篇文章)引用的情况 coc[i,j]越大,表示这两篇文章的相关性越强 形成文章之间的邻接矩阵E,使得E[i,j]=1当且仅当文章i引用了j;否则E[i,j]=0。 这意味着,E的第j列反映文章j被引用的情况; 同时引用文章i和文章j的文章数量等于E[*,i]和E[*,j]在相同的行出现1的个数。考虑到E元素的{0,1}特性,即coc[i,j]=∑E[k,i]E[k,j], k=1,2,…,n 或者coc = ETE j 1 i * chenguang@ i 文章的引用矩阵E j 1 j i 1 1 1 1 coc[i,j]=∑E[k,i]E[k,j] coc[i,j]= ETE i 1 1 j 1 1 * chenguang@ 关于声望模型 给定一个群体S,及其在上面的一个“知晓”关系R,于是定义了一个有向“关系图”G。用邻接矩阵E表示,E(i,j)=1当且仅当i “听说过”j(注意这里没有程度之分)。我们希望确定p(i):所有个体i∈S的“声望” 模型一:p(i) = ∑E[k,i],k=1,…,n,即i在G上的“入度”,亦即E的第i列的1的个数 清楚、好计算;但是“不够好” 模型二:p(i) = ∑E[k,i]p(k),k=1,…,n,即i的声望等于知晓他的人的声望之和 清楚、显得要更“精确些”;但是,好计算吗? * chenguang@ 声望模型二(续) 对于所有i,p(i) = ∑E[k,i]p(k),k=1,…,n 也就是,记p = (p(1), p(2), …, p(n))T, p = ETp 问题是: 这个方程存在解吗? 如果存在,如何得到? 如果不存在,该怎么办? 一般来讲:这个方程的非0解是不存在的! * chenguang@ p = ETp 的不存在例 S = {1,2,3}, R =

文档评论(0)

dmz158 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档