一种自动发现社交网络中社交圈算法实验设计与分析.docVIP

一种自动发现社交网络中社交圈算法实验设计与分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种自动发现社交网络中社交圈算法实验设计与分析

一种自动发现社交网络中社交圈算法的实验设计与分析   摘要:本文对依据一种新颖的识别用户社交圈的方法所建模型?M行了实验设计及分析。将朋友之间相互网络联系视为用户个人网络上的点聚类问题,同时结合网络结构和用户资料信息开发了一种检测社交圈的模型,对于每个聚集可分析其成员以及特定用户信息的相似性度量,通过对多重社交圈建立的点关系模型,可以发现重叠和分层嵌套的社交圈。通过真实数据来验证模型的性能,实验结果表明,本文所建模型可以准确识别社交圈中多样化数据的归属集合。   关键词:社交圈;聚类问题;分层嵌套   中图分类号:TP311 文献标志码:A 文章编号:1009-3044(2018)15-0045-02   1引言   如何组织庞大而凌乱的个人社交网络是具有挑战性的问题,社交网站允许用户手动将他们的朋友分配到各社交圈,如微信的“朋友圈”,人人网的“好友”等。用户借助社交网站来组织网络和交流,将朋友分类到所谓的社交朋友圈,几乎所有的社交网站提供了这样的功能。构建这样的社交圈不但要耗费用户大量的精力,而且随着用户社交圈的扩大,随时更新的代价惊人。目前构建如上社交圈的方法都不尽如人意,我们项目组在文献[1]中提出一种自动发现社交网络中社交圈的方法,通过在真实数据集上评估,与Streich等提出的多任务聚簇算法[2],Yoshida等提出的低秩嵌入算法[3],Balasubramanya和Cohen提出的block-LDA算法[4,5]进行对比,本方法依靠结合点和边的信息来预测多元朋友圈中的成员,具有良好的性能。   2实验用数据集   为了在真实数据集上评估非监督算法,本文从微信、Google+和人人网等三个主要社交网络获得个人网络和真实数据,包含193个朋友圈和4039个用户。我们开发了专门的微信应用程序对10个用户进行调查,要求他们手动确定其朋友应该属于哪个朋友圈。平均来说,用户大概会确定19个朋友圈,圈内成员平均22个。   从Google+上获得了133个个人网络,包括479个朋友圈和106674个用户。这133个个人网络代表了所有Google+中至少分享两个朋友圈的133个用户,并且这些人的网络信息是公开的。与微信上的朋友圈不一样,有些Google+社交圈的创建者已选择公开它们,Google+是一个有向网络。比如,一个圈包含2012年最有影响的歌星候选人,他们可能不会反过来跟随他们的粉丝。   从人人网上得到1000个个人网络,包括4896个圈和81362个用户,选的个人网络的大小是10到4964个节点。全部数据共有1143个个人网络,5541个社交圈和192075个用户。其中微信的数据是完全标记的,其本质上用户认为具有凝聚力的社区朋友圈,而Google+和人人网上的数据只是部分被标记,即只能使用公共圈。   3 构建特征集   所有的数据集信息都可以表示成一个树,其中每层编码表示越来越多的特定信息。对于Google+数据,从6个方面收集数据(性别、姓名、头衔、机构、大学和居住地)。对于微信上数据,从26个方面收集数据,包括籍贯、生日、同事、政治面貌等。对于人人网,简单地从两个方面收集数据,即两周内用户用到的组标签和提示。“类别”对应于概要树里叶子节点的父节点。   首先描述如何用一个差别向量为两个用户之间的关系编码。假设每个用户[v∈V]都有一个相关的信息树[Tv],并且[l∈Tv]是树中的叶子。定义用户x和y的差别向量[σx,y]是一个二进制指示器反映x和y之间的差异:   [σx,y[l]=δ((l∈Tx)≠(l∈Ty))] (1)   上述差别向量在信息编码粒度方面有一定优势,但是它的不足在于维数太高(多达4122维)。解决这个问题的一种方法是基于叶节点的父节点来形成差别向量。对两个用户信息的共同类别进行编码,不考虑具体值。例如,关注编码两个用户共同拥有多少个标签,而不在乎到底是哪一个标签:   [σ′x,y[p]=l∈children(p)σx,y[l]] (2)   这种方案的优势在于它只需一个固定数量的维度,而不管个人网络的大小(如上所述,微信有26个,Google+有6个,人人网有2个)。   现在描述如何根据差别向量[σx,y](和[σ′x,y])得到边特征[?(x,y)]。希望构建的第一个属性是圈内的成员应该彼此有常见的关系:   [?1(x,y)=(1;-σx,y)] (3)   第二个属性是圈内成员应该与个人网络的拥有常见的关系:   [?2(x,y)=(1;-|σx,u-σy,u|)] (4)   这两个参数允许评估哪种机制更适合捕捉用户对聚集的主观定义。两种属性都有一个常量特性“1”,用来控制用户在同一个朋友圈的可能性,或者度量哪个朋友圈在更大程度上由朋

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档