大流算法发现web社团改进.docVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大流算法发现web社团改进

最大流算法发现web社团改进 何拥军 龚发根 摘 要:关键词:; 超链接;The maximal-flow discovers the web mass organization algorithm improvement Abstract: Proposed side one kind of better assignment the capacity method, namely is not assigns a same constant value for each, but is comes the dynamic assignment different on the other hand value for different on the one hand based on the information importance, the good solution maximal-flow algorithm discovers in the web mass organization the subject drifting question. 1 引言 Web社团是自Internet诞生以来就客观存在的一些web群体,一个web社团通常是这样的一群页面的集合: 它们在内容上一般都是围绕某一主题,具有一定的相关性,或者具有某一相似特性[1]。一般的一个web社团只是整个互联网web图中的一个非常小的子图。如何去发现互联网上这些潜在的web社团也是近几年来才引起众多研究者关注的研究领域。在任一个图中边和节点都是很重要的元素,同样在web图当中,代表超链接的边也往往包含有一些非常重要的信息,如果能利用图的理论知识,通过web链接图来研究web社团将会有更好的效果 ,所以很多的研究工作关注通过web的超链接结构关系来挖掘web 社团资源[2]。 众多的研究者提出了各种各样的基于链接结构分析发现web 社团的方法。Gibson和Kleinberg等人[3,4]提出了基于链接分析搜索算法HITS,Kumar等人[5]从二分有向图的角度对互联网上的社团给出了一种明确的定义描述,把web社团看作一些二分有向图的核。Yasuhito[6] 等人提出了通过交互站点的方法。文献[7][8]最先提出通过最大流算法来发现web社团,文献[9][10]从多方面对最大流算法进行了实验及评价。 2 相关研究工作 2.1 最大流算法与最小割切 网络中的最大流算法具有广泛的应用,在这首先介绍一下在图论中对S-T的最大流问题的简化定义: 给定一个网络流图,边的容量为,两个节点,然后找出流经源节点到沉积节点最大流量。直观理解,假设边为管道,节点为开关,那么最大流问题就是如何让源节点S 到沉积节点T能流过的流量最大。 Ford 和Fulkerson[11] 已经证明了“最大流-最小割切”理论,即网络流中最大流等于把到沉积节点分离的最小割切容量,等式如下: (1) 其中为网络流,为给切,假设 ,其中 为一个子集,,给定,那么边集就叫做S-T的一个割切,包含在割切中的边叫做割边,最小割切即满足割边的容量和为所有割边中最小的一个割切。 2.2 web社团 这里引用文献[9][10]里定义web社团为: 设 为某些节点的集合,一个web社团是其中的一个子集 ,满足条件:对任何节点 ,与属于当中节点之间连接的边数大于它和以外节点之间连接的边数,即,如图1 所示 图1web社团 3 最大流算法的特点及存在的问题 最大流算法应用到web 链接结构中抽取社团的思想最先是由G.Flake等人提出的,在文献[9][10]里面G.Flake等人通过实验证明了最大流算法对于解决HITS算法在社团抽取当中存在的主题漂移问题有较好的效果。下面重点探讨该算法同时所存在的一些问题并提出自己的解决方案。 3.1 社团体积与边的关系 G.Flake等人在文献[9][10]里对边的容量与社团体积之间的关系进行了深入的研究 ,如下图所示。图的横坐标表示边容量的增加,纵坐标表示随之所获得的社团体积。可以看出,随着边的容量的增加,社团的体积也显著加大,但这种变化是离散的,即分阶段上升,而且不同阶段的跳跃长度并不相等。从下图来看,当边的容量从9到10,14到15,20到21这几个阶段每一次跳跃后,社团的体积都急剧变大,社团变化相应的值为9到36,36到50,50 到630。明显看出边的容量在20到21这个跳跃点社团的体积增加最迅速。 图2边的容量与社团体积的关系 3.2 G.Flake 算法存在的问题及改进算法的提出 如前面所说,边的容量对

您可能关注的文档

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档