基于K- means聚类的微博用户活跃度研究.docVIP

下载本文档

6
0
约3.21千字
约 6页
2018-11-27 发布于湖北
举报
版权申诉

基于K- means聚类的微博用户活跃度研究.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于K- means聚类的微博用户活跃度研究　　摘要：以新浪微博用户为例，分析用户的相关数据，根据用户的粉丝数量、关注数量、发博文数量三个基本属性，采用K- means聚类算法对用户进行聚类分析，构建出用户活跃度聚类模型，为进一步的如何提升用户活跃度研究及采取相应措施保持、提高用户活跃度提供依据。　　关键词：微博 K- means聚类算法用户活跃度社交网络平台　　中图分类号：TP311.1；F49 文献标识码：A 　　在现今的日常生活中，微博作为一种新型的社交网络平台以其简单易用的用户平台、普遍的用户群、海量的实时信息和爆发式的传播方式，越来越受到人们的欢迎，也日益成为绝大多数用户生活中必不可少的一部分[1]。微博最重要的特征和职能之一就是允许每一位用户更新、分享和传输丰富多彩的信息。如何激励用户发布新的内容，激励用户积极分享自己喜欢的内容，使得整个微博社区更加活跃、信息更加丰富多彩，构建更加良好的微博生态，对微博平台的不断发展起着至关重要的作用。针对这个问题，根据用户的粉丝数、关注数、博文数这三个基本属性，采用K-means聚类算法对用户进行聚类分析，构建用户活跃度聚类模型，为上述问题的解决提供依据。　　对用户活跃度的定义：第一是分析用户在网站上会有什么行为；第二是分析用户在网站上具有哪些属性。以新浪微博用户为例，用户可以发微博文章、转发博文、评论博文、被其他用户关注、关注其他用户，用户有发布的微博文章数量、转发博文数、评论博文数、粉丝数、关注数。两个方面结合到一起就可以对活跃用户特征做出定义。　　本文针对微博用户活跃度合理聚类问题，以新浪微博为例，运用K-means聚类算法构建合适的用户活跃度聚类模型，以期提高微博社区的活跃度及信息服务质量。　　1 K- means聚类算法　　1.1 K- means聚类算法简介　　K-means聚类算法是由Steinhaus1995年、Llovd1957年、Ball Hall1965年、McQueen1967年分别在各自的不同的科学研究领域独立的提出[2]。K-means聚类算法被提出来后，在不同的学科领域被广泛研究和应用，并发展出大量不同的改进算法，虽然K-means聚类算法被提出已经超过50年了，但目前仍然是应用最广泛的划分聚类算法之一[2]。　　K-means聚类算法是在无监督的情况下，将研究对象分为相对同质的群组的统计分析技术。聚类分析与分类分析有较大差别，分类分析是有监督的学习，而聚类分析是无监督的学习。无监督学习需要由聚类学习算法自动确定标记，不依赖于带类标记或有预先定义的类的训练实例，是观察式学习，而分类学习的实例或数据对象有类别标记，是示例式的学习。　　1.2 K- means聚类算法操作步骤　　K-means聚类算法是把含有n个对象的集合划分成指定的K个簇，每个簇中的对象的平均值称为该簇的聚点（中心），两个簇的相似度就是根据两个聚点而计算出来的。其操作步骤如下。　　输入：数据集X={xm|m=1，2，…，total}，其中的数据样本只包括描述属性，没有类别属性，聚类的个数为K。输出：使误差平方和准则最小的K个聚类。　　第一步，从数据集X中随机地选择K个数据样本作为聚类的初始代表点，每一个代表点表示一个类别。第二步，对于X中的任一数据样本xm（1≤m≤total），计算它与K个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中。第三步，完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到K个均值代表点。第四步，对于X中的任一样本数据xm（1≤m≤total），?算它与K个均值代表点的距离，并且将它划分到距离最近的均值代表点所表示的类别中。　　反复执行第三步和第四步直至各个聚类不再发生变化为止，即误差平方和准则函数的值达到最优。　　2 微博用户活跃度聚类模型构建　　2.1数据采集与预处理　　本文用户数据来源于新浪微博，通过利用网络爬虫实现用户相关数据的获取，主要收集了2018年1月16日的一些用户数据，提取了用户的粉丝数、关注数、博文数属性，共得到17283条数据，得到的数据中有些数据的部分属性存在缺失，考虑到本文样本中每条数据属性值之间存在关联，常规的缺失值处理方法在此不太适用，并且存在缺失的数据量也不大，故直接将此类数据剔除，最终得到15518条数据，为对用户进行聚类分析做好准备。　　2.2 K- means算法对用户活跃度分类的具体实现　　本文使用WeKa工具中的K-means算法对预处理后的数据进行聚类分析，经过比较分析，聚类数量为4时聚类效果较好，最终得到的用户活跃度聚类模型如图1所示。　　图1上半部分中