基于标签传播算法Web社区发现研究.docVIP

下载本文档

8
0
约4.82千字
约 10页
2018-08-30 发布于福建
举报
版权申诉

基于标签传播算法Web社区发现研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于标签传播算法Web社区发现研究

基于标签传播算法Web社区发现研究　　摘要：标签传播算法是社区发现的经典算法，优点是思路简单，快速高效；缺点是随机性强，每次迭代结果不一致，准确率不高。Web系统是一个由超文本链接构成的巨大的信息源，将改进的标签传播算法用于Web社区发现，有助于快速在大量的Web页面中发现有利用价值的信息。　　关键词：标签传播；Web；社区发现　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2018）02-0254-03 　　Research on Web Community Detection Based on Label Propagation Algorithm 　　YAN Hai-ling，ZHOU Rui，YUAN Chun-yan 　　（XingZhi College of Xi’an University of Finance and Economics，Xian 710038，China ）　　Abstract：Label propagation algorithm is a classical method for community detection， its advantage is high efficiency and simplicity， its disadvantage is strong randomness and low accuracy quality because the results of iteration every time are inconsistent. Web system is a huge information source that made up of hypertext links. Its useful in that it uses improved label propagation algorithm on Web community detection. 　　Key words：label propagation；Web；community detection 　　客观世界可以看成是复杂的网络系统，是由形态各异的子系统构成。每一个子系统表现出社区结构的特性。在客观世界中，不同的社区结构表示不同的内容，具有不同的含义。例如人际关系网中，相识的关系密切的朋友可以划分为同一个社区；在生物学系统网中，相同功能的组织单位可以划分为一个社区。对社区发现的研究，可以在不同领域获取可靠有价值的信息。近年来，社区研究的主要方法划分为四大类：图分割方法、W-H算法、层次聚类法以及标签传播算法[1]。　　其中标签传播算法具有简单、高效的特点，但是准确性有待于提高。其主要原因在于在选取节点的邻接点时随机选取，这种随机性导致计算结果不一致，从而导致社区划分的准确性降低。针对标签传播算法的缺?c，研究者们提出了多种改进的方法。在标签传播基本算法的基础之上提出了多种基于标签传播算法的新思路。　　1 标签传播算法　　标签传播算法（Label Propagation Algorithm，LPA）的基本思想就是相似的数据应该具有相同的标签，具有相同标签的数据划分为同一个社区。也即一个节点应该和它的大多数邻接点划分为同一个社区。将网络看做是一个无向图，首先给图中每一个节点随机分配一个唯一的标签（初始时可以认为每一个节点就是一个单独的社区），然后将一个节点的标签更新为所有邻接点的标签中数量最多的那个标签，最终标签相同的节点划分为同一社区结构。　　标签传播算法是基于图的，将网络系统转化为图进行研究。将所有的数据构建成一个图，每一个数据点就是图中的一个节点，假设这个图是全连接的，包含已标注过的和未标注的两种数据。节点v和节点w的边表示他们的关联度。给每个节点随机分配一个标签以代表它所属的社区，遍历图中每一个节点，将每一个节点的标签更新为它的所有邻接点中标签数目最多的那个标签，如果数目最多的标签同时存在多个，则在其中随机选择一个进行更新，最终同一标签的节点划分为同一个社区结构。每一个节点的标签取决于它邻接点的标签：假设节点v的邻接点有v1至zk，将v的标签更新为v1至vk 中标签数目最多的那个标签。也即v的邻接点中哪个社区的标签最多，v就属于哪个社区。标签传播算法时间复杂度接近线性：对图中每个节点分配标签的时间复杂度为O（n），每次迭代时间为O（ m），划分出所有社区的复杂度为O（n +m）。　　标签传播算法详细步骤：　　①初始时，给每个节点随机分配一个唯一的标签（每个节点是一个单独的社区）；　　②用每个节点的邻接点的标签中最多的标签来更新自身的标签。　　③反复执行步骤②，直到每个节点的标签稳定不再发生变化为止。