4_微博社交网络数据挖掘与分析_吴中超组.pptVIP

4_微博社交网络数据挖掘与分析_吴中超组.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、微博数据采集 二、微博社交网络特征分析 可以看出,用户微博的平均转发率与回复率之存很强的线性关系,因此一个用户在网络中的影响力可以通过其微博的平均转发率和回复率来衡量。 二、微博社交网络特征分析 二、微博社交网络特征分析 3、用户影响力与群体结构演化分析 下图为用户度特征随着时间的变化趋势 二、微博社交网络特征分析 由图可知,曲线随着时间的延伸缓慢向右移动,当到达X轴的10平方后逐渐汇合。上述变化趋势说明了对于网络中的大多数普通用户,其粉丝数量随着时间的增长为一个递增的过程,因此整个网络的入度也是一个递增的过程。也就是说,粉丝与好友比值位于0.2到10之间的用户在将来的用户行为中,更倾向于接收新的粉丝用户而不是主动添加好友。 图中所表述现象可以通过现实中真实的用户行为来说明:当微博社交网络中新增加一个用户时,通常的用户行为往往是首先添加自己感兴趣的关注好友。因为一个人的关注内容和社交热情有限,对于一个老用户来说,他的主要精力将在维护自己已经在的朋友关系而不是持续关注新的用户。在这个过程中,网络中不断有新的用户节点添加进来,这些用户的主要行为将增加老用户的入度数位,因此图中的曲线呈现出整体右移的现象。 因此,微博内容与微博作者的用户活跃度均是影响微博传播性能的参考特征,在评价用户影响力与研究微博传播过程中应当被充分考虑。 三、用户权重排序算法 ait与hit分别是结点/在时刻即第f次迭代过程后的authority 与 hub 数值,所有网络节点ai(t=0)与hi(t=0)的初始值为1。 重复公式3.1至多公式3.4计算过程,直到第n次迭代运算HITS算法排序结果趋向稳定后停止计算 通过微博用户的分析可以得到规律:一个高权重用户所关注的好友越多,那么关注的每个用户将越不重要;反之如果关注的好友越少,那么关注的每个用户将越重要 为了避免一个权威用户过量地将自身权威性传递给该用户的每一个好友,改进HITS算法的迭代过程利用公式3.5取代公式3.2 公式3.5中Oi,out表示用户i的出度,即用户所指向的好友y的数量。如果一个用户所连接的好友越多,那么传递给每一个好友的权重值则越小。 三、用户权重排序算法 其实现过程如下 三、用户权重排序算法 式3.8中,Ti与Tj分别代表用户i与用户j最新发布的若干条微博数量,根据实际取最新200条。Rj,i为用户j对于微博i的评论次数; Rtj,i与Mj,i分别代表用户j转发与提及用户i的微博次数。式中系数β为一个正整数用来线性放大用户j对于用户i交互指数的影响。 利用用户交互指数Ci,j对公式3.8中用户影响力模型进行改进,得到: 为进一步屏蔽某高权重粉丝偶尔评论用户单条微博对于这个用户平均影响力的评判,用户影响力模型通过公式3.10与公式3.11继续调节个别现象对于用户权重的影响 三、用户权重排序算法 式3.14中,Ti与Tj分别用户最新发布的微博数量;Ni与Nj分别为为用户i,j的粉丝数量。 Fj,f为用户粉丝的平均粉丝拥有数;Fj,(f-1)表示该用户除去粉丝y后的粉丝平均粉丝拥有数. 因此参数ɑ的取值范围为(0, 1],当用i存在一个极大权重粉丝j的评论行为时,参数ɑ将用来调节高权重粉丝对于该用户的影响。 END 吴中超 瑜 杨蔚 张鹏 三、用户权重排序算法 本文模型计算结果只有14位不同的用户先后进入过作者10大好友用户排行榜,而进入作者粉丝用户10大排行榜的用户达到34人。 这个现象说明了拥有较高权威性的用户(主要存在于作者好友列表中),其权重主要源自用户自身的影响力水平,通常可以保持一个相对稳定的权重得分; 而普通用户(主要存在于作者粉丝列表中)的权重得分在很大程度上取决于用户最近一段时间的微博活动参与度与微博质量,因此会有较大的波动。 LOGO 微博社交网络数据挖掘与分析 第四小组 2015.1 LOGO 主要研究内容 微博数据采集 微博社交网络特征分析 用户权重排序算法 一、微博数据采集 微博的授权认证

文档评论(0)

kabudou + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档