- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大连理工大学毕业设计(论文)格式规范
基于最大流算法发现网络社区
- PAGE II -
- PAGE I -
摘 要
随着万维网的普及,人们的信息来源得到极大的丰富,网络成为人们获取信息的主要来源之一。Web是由大量异构的超文本及它们之间的超链接所组成的分布式信息源,而且正以几何级数增长,Web上分散存储、动态变化的海量数据对如何发现和提取其中的有用信息提出了很大的挑战。根据Web社区从互联网中提取知识一种快速、有效的知识提取途径。社区一组相互紧密联系的具有共同主题的网页集合,通过它可以有效地重新组织和管理Web数据。社区发现是指在分散和无序的互联网环境中发现潜在的和已定义的主题社区,并从互联网中抽取这些社区的过程。
本文重点分析了互联网的结构特征,对当前社区发现的主要技术进行了总结和分类。本论文实现了基于最大流发现社区的算法,并且通过使用相同主题的实验来比较改进方法所发现的Web社区的质量。本文对边容量与社区的规模之间的关系进行了深入研究,原始的最大流算法给边容量赋予常量,把每条边看成同等重要,而实际上每条链接所包含信息的价值并不相同,因此常常提取出包含噪音页面的图结构。本文着眼于提高社区质量,将概率分布的思想引入到边容量的分配中,给出了利用网页的入度和出度的概率分布来分配边容量的方法。实验证明,改进的边容量分配方法较好地解决了最大流算法发现Web社区中的主题漂移问题。
本论文从概率分布的角度给出了社区发现中改进的边容量分配方法,为获得高质量的Web社区提供了新思路和新途径,为有效地发现Web中潜在的社区提供了保证。因此,本文的研究具有一定的理论和实践意义。
关键词:社区发现;最大流技术;链接分析
基于最大流算法发现网络社区
- PAGE IV -
Identifying Web Communities by Maximum Flow Algorithm
Abstract
As www grows popularly, people gain rich source of information, in which Web is a giant source. Extracting knowledge from Web Community is a quick and efficient way to discover knowledge in the Web. Community is a collection of Web Pages that are highly related, interconnected, and share the same topic. Community discovery is to discover the hidden community and defined community from the distributed and disordering environment of Internet.
This thesis implements the methods based on maximum flow algorithm. By using same topics, we compared the Web communities obtained by two methods and analyzed those characteristics. Especially in the community identification based on flow techniques, this thesis studies the relationship between edge capacities and community scale. The previously proposed method has a limitation that a certain graph structure containing noises is always extract, which is mainly because each edge is assigned a constant value which regard each edge as the same important. But actually, each hyperlink including information has a different value. For the sake of improving community quality, this thesis analyzes link structure, basing on the characteristics of
原创力文档


文档评论(0)