第439号论文.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第439号论文

余弦-距离算法区分微博用户行为偏好的统计检验影响力分析 Contents 摘要 2 关键词: 余弦距离 聚类分析 Logistic回归 数据降维 2 1 引言 3 1.1 新浪微博简介 3 1.2选题意义与研究目的 4 1.3 相关文献综述 5 2 数据收集与余弦-距离算法 7 2.1数据收集过程 7 2.2余弦-距离算法 8 3 统计检验与影响力建模 12 3.1两总体均值向量的比较 12 3.2 Kruskal-Wallis秩和检验 12 3.3 系统聚类与动态聚类分析 13 3.4微博用户影响力的Logistic回归建模 15 3.5主成分分析与余弦-距离算法降维效果比较 16 4 总结 20 参考文献 22 余弦-距离算法区分微博用户行为偏好的统计检验影响力分析 摘要 Micro blog,微博作为一种新的社交媒体,正不断改变着21世纪人们获得信息的方式。依靠将现实世界的人际关系复制于网络微博,仰赖现实关系的稳定性来增强微博信息的可靠性,通过人际关系获得信息将成为这个世纪的主流。那么本研究利用了新浪微博公的API预设函数,通过Java语言开发包收集了以目标用户为中心,利用新浪微博平台曾广泛邀请并认证名人用户的特点,聚焦于微博用户实际交互的粉丝圈,计算了用户与粉丝圈的名人好友成分向量,并且原创了余弦-距离算法来压缩高维的成分向量,利用统计的多元统计量、非参数Kruskal-Wallis检验以及系统、动态聚类分析验证了算法准确,再通过将粉丝转发或者评论Logistic回归的因变量,利用算法得到的余弦值和向量顶点距离作为解释变量,成功拟合了Logistic回归模型,证明余弦-距离算法。比起同类可以计算用户行为偏好的LDA主题模型节省了语义库的收集成本,具有较好的理论价值和实用性。通过余弦-距离算法得到微博用户行为的相似性,将有助于发掘真正有影响力的微博用户推广信息,同时为微博精准过滤的应用提供了方法论。 关键词: 余弦距离 聚类分析 Logistic回归 1 引言 新浪微博简介 一种传播媒介要普及到5000万人,广播用了38年,电视用了13年,互联网用了4年,Micro blog这种社交媒体用了14个月。 有人在平台上做过调研,如果美国人突袭本拉登时,如果本拉登登录Micro blog,就可能看到巴基斯坦地区的热门信息:今日伊斯兰堡上空出现许多不明战斗机,而幸免遇难。 Micro blog,中文译作微博,即微型博客的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过Web、Wap以及各种客户端组件个人社区,以140字左右的文字更新信息,并实现即时分享。 最早也是最著名的微博是美国的twitter,根据相关公开数据,截至2010年1月份,该产品在全球已经拥有7500万注册用户。2009年8月份中国最大的门户网站新浪网推出“新浪微博”内测版,成为门户网站中第一家提供微博服务的网站,微博正式进入中文上网主流人群视野。本研究的研究平台就是以新浪微博用户为总体来进行。 区别国外的微博平台twitter,新浪微博由于推广的需要,首先邀请了明星和名人加入开设微型博客,并对他们进行实名认证,认证后的用户在用户名后会加上一个字母“V”,以示与普通用户的区别,同时也可避免冒充名人微博的行为,但名人微博的功能和普通用户是相同的。公众名人用户众多是新浪微博的一大特色,目前基本已经覆盖大部分知名文体明星、企业高管、媒体人士。一旦普通人注册了新浪微博帐号之后,新浪微博会按照官方给出的名人类别,向用户推荐一批名人好友,来增加用户使用新浪微博的兴趣,普通用户也可以在阅读到名人所发的微博后,自己主动加名人好友,以示“关注”。 用户可以通过网页、WAP页面和手机短信、彩信发布140字以内的消息或上传图片,此外还可通过API(应用程序接口,后文2.1会详细介绍)用第三方软件或插件发布信息。于2009年8月14日开始内测。截至2010年10月底,新浪微博用户数已达5000万,新浪微博用户平均每天发布超过2500万条微博内容。其中有38%来自于移动终端。微博总数累计超过20亿条。目前是中国用户数最多的微博产品,是目前国内最有影响力、最受瞩目的微博运营商。 以新浪微博为代表的微博平台,或者说是一种社交媒体正在给能够上网的所有民众参与到大范围信息传播的路径里。在这种微博的社交媒体里,大量的观点、评论、新闻、产品信息甚至应用软件每秒钟都在不断被传播。很自然的就会想到根据信息传播的途径、频率来衡量信息传播的影响力。特别是新浪微博的用户群这么大,用户习惯形成时间最长也相对最稳定,许多广告公司甚至传统的媒体,如BBC、时代周刊、文汇报都开始注意到利用新浪微博增加信息传播的即时性。每一个微博用户都是信息的载体,如何挑选最有影响力

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档