聚类分析的网络论坛社团探测算法探究.docVIP

聚类分析的网络论坛社团探测算法探究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析的网络论坛社团探测算法探究

聚类分析的网络论坛社团探测算法探究   1引言   网络论坛(BBS)由于具有及时性、交互性、开放性等特点,因而也是网络舆论产生、形成和发展的主要场所,整个网络论坛的参与者呈现一种特性-社团结构,即整个网络由若干个社团构成,每个社团内部的节点之间的连接相对紧密,各社团之间的连接相对稀疏.研究网络论坛的社团结构,对了解BBS中网络舆论的传播特点具有现实意义.   网络论坛中成员根据兴趣或背景而形成真实的社会团体,网络中的这些社区有助于更加有效地理解其成员结构和分析网络舆论传播特性.目前对网络社团结构研究主要有两类主要的方法-社会学中的分级聚类和计算机科学中的图形分割方法.分级聚类是探测网络社团的传统方法,基于各个节点间连接的相似性或强度将网络划分成子群,并根据划分时是往网络中添加还是移除边可分为凝聚算法和分裂算法,Girvan和Newman提出基于边介数的分裂算法(简称GN算法);Kemighan-Lin算法和谱平分法则是较为出名的图形分割算法,其中Kernighan-Lin算法根据使社团内部及社团间的边最优化的原则对原始的网络进行分类,谱平分法是根据网络图的Laplace矩阵进行向特征向量空间的谱映射.该文算法是谱平分法的一种改进算法,将模块度函数与聚类分析算法结合进行社团结构探测.   2试验及结果   海峡四川钓友联谊会是海峡钓鱼网的一个子板块,其中参与者大部分为四川本地钓鱼爱好者,论坛成员具有共同的兴趣爱好.该板块为四川钓鱼爱好者的学习与交流提供了一条新途径.针对相关主题,论坛成员可以提出问题、发表各自的观点和看法,相互交流,相互帮助.   实际数据处理时,根据对己掌握的id对应关系,对部分id进行了特别处理,例如将“清凉油”和“151”这2个id合并处理,将“被草压死的骆驼”与“骆驼”,“黑武器”与“黑版”视为同一个id.   2. 1连接权矩阵的生成   该文从6000余名在该论坛中发言的成员中筛选出满足各种阈值条件的成员1436人,并生成对应的连接权矩阵.   2. 2对比试验   为验证算法的有效性,该文将该论坛数据分别运用K-Means算法,CNN算法以及该文的基于模拟退火的社团探测算法.其中,K -Means算法是常见的聚类算法,是基于距离聚类中心最近法则为标准对个体进行分类的;而CNN算法则采用竞争型神经网络模型,进行无监督学习的分类.这里要注意的是,这里所有的算法程序都用matlab编写.   这里运行次数为得到最优解的平均运行次数,时间为平均运行时间.   表2给出了应用C - based SA算法模块度在0.36以上的聚类结果,k=3,4,5时模块度较高.   图1给出了k =5,降温速率为0.997时的探测算法的迭代过程,迭代到2300次左右就己经求出了最优解.   2. 3结果分析   通过对实际数据运行3种不同的社团探测算法,结果表明:K-Means算法速度较快,但受初始化条件影响较大,可靠性也比其他两种算法差,网络规模扩大对算法性能影响较大;CNN算法对初始化条件依赖程度较K-Means算法较低,但运算速度较慢,并且对数据预处理需要花较长的时间;三种算法中,C-based SA算法不依赖初始化条件的选取,直接使用模块度函数作为目标函数对网络进行社团探测,能保证达到全局最优解,可靠性较其他两种算法要高,该算法的复杂度依赖于系统降温速率的设置,其缺点是运行时间较长.   3结束语   提出了针对网络论坛的社交网络的构建方法,将组合优化的方法与聚类分析的思想相互结合并应用到网络论坛社团结构的求取上,并提出了用模拟退火算法来求解,解决了实际工作实践中遇到的问题.试验结果验证了算法的准确性,模拟退火算法与聚类分析的思想能有效的结合起来,对论坛社团结构进行分析有较大的实用价值.   试验结果同时说明,基于兴趣的网络论坛中的社交网络社团结构不太明显,值得注意的是,该文使用的是非重叠性的社团探测算法B,考虑到实际网络中,个体往往具有多群体特性,因此,改进社团结构的定义以及在此基础上探索新的社团划分方法是一个值得研究的方向.

文档评论(0)

专注于电脑软件的下载与安装,各种疑难问题的解决,office办公软件的咨询,文档格式转换,音视频下载等等,欢迎各位咨询!

1亿VIP精品文档

相关文档