网站大量收购独家精品文档,联系QQ:2885784924

web社区结构掘的研究与应用.pdf

  1. 1、本文档共63页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
web社区结构掘的研究与应用

摘要 摘要 Web是一个复杂超文本所组成的巨大信息源,而且以很快的速度在不断的 扩大,Web在发展过程中存在着大量的社区,这些社区是Web组织中非常重要 的信息,社区可以为用户提供有价值的、可靠的、及时的信息,社区反映了Web 中普遍存在的、复杂的聚团关系和层次关系。如何利用和发现Web中的社区, 是Web挖掘的一个研究方向。 本文在分析了W曲社区的定义、社区的发展、Web数据挖掘的概念与分类、 链接分析技术等基础理论的基础上,对Web社区结构挖掘的典型算法:基于重 HITS算法进行了详细的分析和比较。重点研究了传统最大流算法和基于HITS 算法的边容量分配最大流算法的实现过程及在社区挖掘中存在的问题。传统最大 流算法虽然能较好的解决主题漂移问题,但对社区的质量和数量也会带来许多不 利的影响。而基于HITS算法的边容量分配最大流算法因为采用两个结点的中心 值和权威值的简单加和平均作为边容量,从而有可能增加噪音页面被提取到社 区。为解决上述算法中存在的问题,本文提出了基于传递概率的边容量分配最大 流改进算法,该算法将节点连接度和节点相关度这两个不同角度的属性特征量化 地融合到连边的传递概率中,根据传递概率分配边的容量,传递概率的计算综合 考虑了节点之InJ的多种因素,对原算法进行了优化。 本文最后设计了一个Web社区结构挖掘系统,该系统利用本文提出的改进 算法进行Web社区挖掘,经过大量的实验证明,该系统能较好的解决传统算法 在社区挖掘中存在的一些问题,进一步提高了Web社区挖掘的准确性。 关键词:Web社区,Web数据挖掘,HITS,最大流,传递概率 Abstract Abstract Webisthe informationsourceconstituteda huge by complex hypertext in composes,and afast communitiesareexisted unceasinglyexpandedspeed.Many intheWeb the communitiesbecomethe duringdevelopmentprocess.These very informationtheWeb of and valuable,reliable important organization.The prompt informationcanbe tothecustomersthe provided by community.The community reflectedtheuniversal to the relationsand existence,complexgathergroup hierarchicalrelation onWeb.Howtouseanddiscoverthe inWebisa community researchdirectiono

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档