一种自动发现社交网络中社交圈算法实验设计与分析.docVIP

下载本文档

3
0
约3.89千字
约 8页
2018-08-13 发布于福建
举报
版权申诉

一种自动发现社交网络中社交圈算法实验设计与分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种自动发现社交网络中社交圈算法实验设计与分析

一种自动发现社交网络中社交圈算法的实验设计与分析　　摘要：本文对依据一种新颖的识别用户社交圈的方法所建模型?M行了实验设计及分析。将朋友之间相互网络联系视为用户个人网络上的点聚类问题，同时结合网络结构和用户资料信息开发了一种检测社交圈的模型，对于每个聚集可分析其成员以及特定用户信息的相似性度量，通过对多重社交圈建立的点关系模型，可以发现重叠和分层嵌套的社交圈。通过真实数据来验证模型的性能，实验结果表明，本文所建模型可以准确识别社交圈中多样化数据的归属集合。　　关键词：社交圈；聚类问题；分层嵌套　　中图分类号：TP311 文献标志码：A 文章编号：1009-3044（2018）15-0045-02 　　1引言　　如何组织庞大而凌乱的个人社交网络是具有挑战性的问题，社交网站允许用户手动将他们的朋友分配到各社交圈，如微信的“朋友圈”，人人网的“好友”等。用户借助社交网站来组织网络和交流，将朋友分类到所谓的社交朋友圈，几乎所有的社交网站提供了这样的功能。构建这样的社交圈不但要耗费用户大量的精力，而且随着用户社交圈的扩大，随时更新的代价惊人。目前构建如上社交圈的方法都不尽如人意，我们项目组在文献[1]中提出一种自动发现社交网络中社交圈的方法，通过在真实数据集上评估，与Streich等提出的多任务聚簇算法[2]，Yoshida等提出的低秩嵌入算法[3]，Balasubramanya和Cohen提出的block-LDA算法[4，5]进行对比，本方法依靠结合点和边的信息来预测多元朋友圈中的成员，具有良好的性能。　　2实验用数据集　　为了在真实数据集上评估非监督算法，本文从微信、Google+和人人网等三个主要社交网络获得个人网络和真实数据，包含193个朋友圈和4039个用户。我们开发了专门的微信应用程序对10个用户进行调查，要求他们手动确定其朋友应该属于哪个朋友圈。平均来说，用户大概会确定19个朋友圈，圈内成员平均22个。　　从Google+上获得了133个个人网络，包括479个朋友圈和106674个用户。这133个个人网络代表了所有Google+中至少分享两个朋友圈的133个用户，并且这些人的网络信息是公开的。与微信上的朋友圈不一样，有些Google+社交圈的创建者已选择公开它们，Google+是一个有向网络。比如，一个圈包含2012年最有影响的歌星候选人，他们可能不会反过来跟随他们的粉丝。　　从人人网上得到1000个个人网络，包括4896个圈和81362个用户，选的个人网络的大小是10到4964个节点。全部数据共有1143个个人网络，5541个社交圈和192075个用户。其中微信的数据是完全标记的，其本质上用户认为具有凝聚力的社区朋友圈，而Google+和人人网上的数据只是部分被标记，即只能使用公共圈。　　3 构建特征集　　所有的数据集信息都可以表示成一个树，其中每层编码表示越来越多的特定信息。对于Google+数据，从6个方面收集数据（性别、姓名、头衔、机构、大学和居住地）。对于微信上数据，从26个方面收集数据，包括籍贯、生日、同事、政治面貌等。对于人人网，简单地从两个方面收集数据，即两周内用户用到的组标签和提示。“类别”对应于概要树里叶子节点的父节点。　　首先描述如何用一个差别向量为两个用户之间的关系编码。假设每个用户[v∈V]都有一个相关的信息树[Tv]，并且[l∈Tv]是树中的叶子。定义用户x和y的差别向量[σx，y]是一个二进制指示器反映x和y之间的差异：　　[σx，y[l]=δ（（l∈Tx）≠（l∈Ty））] （1）　　上述差别向量在信息编码粒度方面有一定优势，但是它的不足在于维数太高（多达4122维）。解决这个问题的一种方法是基于叶节点的父节点来形成差别向量。对两个用户信息的共同类别进行编码，不考虑具体值。例如，关注编码两个用户共同拥有多少个标签，而不在乎到底是哪一个标签：　　[σ′x，y[p]=l∈children（p）σx，y[l]] （2）　　这种方案的优势在于它只需一个固定数量的维度，而不管个人网络的大小（如上所述，微信有26个，Google+有6个，人人网有2个）。　　现在描述如何根据差别向量[σx，y]（和[σ′x，y]）得到边特征[?（x，y）]。希望构建的第一个属性是圈内的成员应该彼此有常见的关系：　　[?1（x，y）=（1；-σx，y）] （3）　　第二个属性是圈内成员应该与个人网络的拥有常见的关系：　　[?2（x，y）=（1；-|σx，u-σy，u|）] （4）　　这两个参数允许评估哪种机制更适合捕捉用户对聚集的主观定义。两种属性都有一个常量特性“1”，用来控制用户在同一个朋友圈的可能性，或者度量哪个朋友圈在更大程度上由朋