基于pagerank算法的无标度网络建模(张翼2010,5).pptVIP

  • 5
  • 0
  • 约1.96千字
  • 约 16页
  • 2016-10-08 发布于重庆
  • 举报

基于pagerank算法的无标度网络建模(张翼2010,5).ppt

基于pagerank算法的无标度网络建模(张翼2010,5)

基于pagerank算法的无标度网络建模 Outline: 引言 pagerank 基于pagerank 的无标度网络模型 总结 引言 什么是复杂网络? 社会关系网络、科学家合作者网络、www网络、 论文引用网络、食物链、 新陈代谢、蛋白质相互作用网络等 如果用复杂性的眼光来看,绝大部分事物都是复杂网络。 个体与个体之间关系的复杂组成。 为什么要研究复杂网络? 20世纪三大科学:信息论,控制论,系统论 系统论:强调整体的作用并不是单纯部分的 叠加 1+ … … +1n 复杂性科学旨在研究个体的叠加为什么会爆发如此惊人的作用,从而通过控制个体的行为和特征,来掌控全局。 同步现象,病毒传播等等 统计数据,分析网络的特征,建立网络的结构,从而进一步的认识网络的行为,改善网络的性能。 首屈一指的工作就是网络的建模。 小世界模型 无标度模型 度分布为幂律分布的网络,即绝大部分的节点的度很低,但存在少量的度相对较高的节点,称为无标度网络 为了解释幂律分布的产生机理, Barabási和Albert 提出了无标度网络模型(BA模型)。 动态增长 优先连接:马太效应,富者越富 BA模型对于无标度网络的研究起了极大的推动作用,它比较准确的把握了真实网络的最基本特点,揭示了无标度网络的形成机制,但是对于现实网络,BA模型过于简化,忽略了网络演化过程中一些因素的影响。 许多实例表明在真实系统中节点的新增连接也参考了其他节点得到的评价高低,但是度并不能客观的反映节点的被认可程度,本文借鉴Google的网页排名算法pagerank,基于BA模型,提出了一种无标度网络的演化模型。 pagerank pagerank算法是google的创始人Larry Page 和Sergey Brin提出的网页排名算法,它是搜索引擎google的核心技术之一。pagerank算法将文献检索中的引用理论用到Web中,引用网页的链接数,一定程度上反映了该网页的重要性和质量。每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。 pagerank值可以比较客观的反映一个页面的吸引力,代表了一个页面被“认可”的程度。 pagerank算法是基于以下的假设:“一个网页被引用 (即反向链接)的次数越多,则说明越重要;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。” pagerank值是这样被计算的:整个互联网是一个大的有向图 ,V是所有页面的集合,E 是有向边的集合, 表示页i有指向页j的超链接。 代表页面 Vi的pagerank值, 是页面Vi的链接数即出度,d是阻尼系数,它的值在0到1之间。网页 的pagerank值由下式给出: 对于所有的页面的PR值满足, 因此可以得出 其中M为系数矩阵,PRT对应所有页面的pagerank值,所以,PRT为M的特征根为d-1的特征向量。只需求出特征向量,就是网页集对应的pagerank值,因此可以用迭代方法计算。给定初始向量P做第一次迭代,就相当于用初始向量乘以上面的矩阵。第二次迭代用第一迭代的结果再乘以上面的矩阵,这样迭代下去,最终得出网页集对应的pagerank值。 如果有一个页面,它不含有任何的超链接,即它的出度为0,那么经过有限次迭代后所有顶点的PR值都将变为0。这是因为由于该页面不对外贡献任何PR,所以整体的PR总和在不断减少,最终减为0。为了克服这个问题,改进如下: PageRank算法能够在网络中准确定位节点的重要程度 , 而且计算复杂度不高 ,为 O( EI) ,其中 E为网络中边的数目, I为算法达到收敛所需的迭代次数。 基于pagerank的无标度模型 相对于真实的网络中得到的实验结果,传统的BA模型具有一定的局限性。在真实的网络中,节点都倾向于连接“口碑”好的节点。比如:在科研合作网中,学者们都喜欢引用被他人引用较多的文献。又比如,一夜成名的明星相对一些进入娱乐圈更早的明星人气更旺。所以要考虑节点的被认可程度对新增连接的影响。 pagerank算法可以客观的反映网络中节点的被认可程度,反映了该节点得到评价的高低。因此本文将pagerank中的网页看成一个个节点,将节点的pagerank值引入到BA模型中,综合节点的度数一起来进行优先连接的选择。

文档评论(0)

1亿VIP精品文档

相关文档