- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据挖掘的微博人气用户特征分析与研究.doc
基于数据挖掘的微博人气用户特征分析与研究
摘 要:通过网络爬虫从新浪微博站点上爬取人气百强用户信息数据,利用Clementine软件的C5.0决策树模型对这些数据进行分析。结果表明:人气用户中,娱乐明星占据着大部分,并且微博中的名人具有关注数小,被关注数大的特征。名人效应非常显著,“非著名话唠”想要引起大家的观注依然困难。
关键词:微博;决策树;用户分析;名人效应
中国分类号:TP39 文献标识码 :A
文章编2013
0 引 言
微博在中国开始以不可思议的速度流行起来,并在人们的生活中扮演着越来越重要的角色,它逐渐地改变着人们的生活、思想、行为以及我们的社会文化。针对这些变化,越来越多的专家学者将目光转向微博,开始对其特点、传播模式以及用户群展开分析研究。
目前,新浪微博用户数已超过1亿。仅仅两年时间,新浪微博就为新浪生下了一个价值几十亿美金的“金蛋”。那么新浪微博的用户群包括哪些人?他们当中的人气用户都是来自哪些行业?他们的空间分布又有什么特征?这些人群通过微博主要是为了了解信息,还是朋友交流?为什么他们会受到这么多的关注?给我们的社会带来什么启示?
本文以新浪微博为研究对象,提取前100名人气用户数据作为分析数据,通过分析分类,挖掘用户行为特征、空间分布以及圈层特征等,找出这些问题的答案。了解微博在社会中的作用,了解“微博人”的真实想法和思想认识,将有助于社会和相关部门更好地把控微博的舆论方向,对建设和谐社会有着积极的意义[15]。
1 研究设计
1.1 样本来源
研究所需的样本数据利用爬虫工具通过微博站点开放的API获取。获取的微博人气用户数据信息主要包括:昵称、性别、地址、描述、被关注数、关注数以及微文数等属性,并以这些数据作为用户特征分析挖掘的基础。
1.2 研究方法和思路
利用C5.0算法,根据用户的名人标识以及其他用户信息,分析名人的用户特征。C5.0算法是决策树模型的经典算法之一,它的基本思想是利用信息论原理对大量样本的属性进行分析和归纳而产生树的结构或规则,其目的是使系统的熵最小,以提高算法的运算速度和精确度[67]。主要包括2个阶段:1)拆分阶段。根据能够带来最大信息增益的字段对样本进行拆分,再根据另一个字段进行拆分,直到样本子集不能拆分为止。2)修剪阶段。重新检验最低层次的拆分,对模型值没有显著贡献的样本子集进行修剪。
2 实证研究
首先,利用网络爬虫通过新浪微博的API成功从站点上爬取了用户信息数据及关系数据;然后,利用Clementine软件的C5.0决策树模型对这些数据进行分析。
2.1 研究结果
微博中的明星用户通过微博发布简单的信息,既能满足粉丝对明星生活的好奇心理,还能为明星自身做宣传,所以娱乐明星占据微博百强用户的大部分,即占到总人数的71%。而通过对百强用户的空间特征分类研究显示,其中的80%以上分布在北京、台湾和香港三地。
此外,分析结果还显示名人存在一个特征,即关注数小于500,被关注数大于10 000,而微文数却不及被关注数的千分之一。这说明微博中的名人通过自身的影响力便能吸引大量粉丝关注,而无需关注他人或发布微博,这种现象即为“名人效应”。
2.2 结果分析
从以上细分结果不难发现,虽然微博逐渐平民化和草根化,但是单单从人气用户分析,北京和香港等大城市用户居多,这主要是因为明星名人大多聚集在这些地域,而圈层分析结果显示明星名人在人气用户中占有很大部分,因此名人在微博中的影响力绝对不容忽视。但是另一个问题出现在我们面前,那就是从其他文献的研究调查中,我们发现微博的用户群分布非常广泛,天南海北,圈层更是涵盖了学生、白领、教师、自由职业等。其中,微博用户群中,企业的普通员工和学生的比例分别达到29%和17%,为什么我们的人气用户中这些行业的用户基本为0呢?
原因分析:一方面,因为在新浪微博用户中存在着相当数量的“沉默用户”和浏览用户,这些用户的活跃度不高,很少有发布/转发这种主动的行为,但是更重要的原因并不在此。
众所周知,从2005年9月新浪开通博客频道起,就大张旗鼓地邀请各路名人进行实名注册,于是随着博客在社会上的流行,新浪网的博客频道顿时变得门庭若市,点击率也日攀新高。在这种形式下,博客变得精英化,脱离草根阶层,成为正式媒体的倾向自然不可避免。而这一现象也同样延伸到了新浪微博当中,并有越演越烈的趋势。微博出现时曾有“人人都是记者”美誉,但是它在话语权的转移上却并不如我们所想象的那般乐观。“非著名话唠”得到的关注依然寥寥无几,声音能被听到并放大的仍然是那些已经在现实生活中积累了名气、财富、社会地位的人,知识
文档评论(0)