基于兴趣轻博客网站拓扑特性研究.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于兴趣轻博客网站拓扑特性研究.docx

基于兴趣轻博客网站拓扑特性研究 摘要:为了了解新型在线社会网络一一轻博客网 站的拓扑特性,该文以国内最大的轻博客网站一一点点网为 研究对象,根据用户间兴趣关系构建兴趣网络,从小世界效 应、无标度特征和中心度等角度对该网络进行了实证分析, 为进一步认识和研究轻博客网站奠定了基础。 关键词:轻博客;社会网络分析;复杂网络;拓扑特性; 中心性 中图分类号:TP393文献标识码:A文章编号: 1009-3044 (2013) 22-5033-04 根据Garry Tan 2013年一月的调查报告表明,2007成 立的轻博客网站Tumblr已经超越Facebook,成为美国年轻 人访问最多的社交网站[1]。随着Tumblr的迅速崛起,国内 也出现了各种类Tumblr的网站。2011年,许朝军成立了点 点网,此后新浪Qing网,网易的lofter.人人网的人人小 站、盛大推他等一批Tumblr的追随者都朝着轻博客的方向 大步前进。轻博客这种新型的在线社会网络(Online Social Network,简称OSN)极可能迎来一个高速发展期。同时, 轻博客在中国还是一个新生事物,国内尚未见相关研究。因 此,结合社会网络分析和复杂网络理论,研究轻博客网站的 拓扑特性,不仅能完善国内外对OSN拓扑特性的理论探索, 而且有助于了解轻博客中人际关系和信息传播的特征,同时 也对实现轻博客舆论的监测、引导、控制等提供重要依据和 基础。 1点点网的数据采集 本文选取国内典型的轻博客网站一一点点网作为研究 对象,这是因为相比其他,被称为“Tumblr中文版”的点点 网是最纯粹的轻博客,其网络结构特征具有很强的代表性。 1. 1面向点点网的网络爬虫 采集网站数据的方法有基于API的数据采集和基于网络 爬虫的数据采集。通过调用网站提供的API接口可以实现网 站数据的便捷抓取与解析,但也要注意:一是API内容开放 不全面,例如点点网API是在2011年12月才对外开放,API 的种类也很少,目前不到30个;二是API服务商对用户的 API接口调用频率与查询的返回结果的最大数量有限制,点 点网就规定查询的返回结果不超过20个;三是使用API接 口需要解决用户认证问题,如果待获取用户条目太多则会占 用大量系统开销等待用户授权许可。因此,该文在开源软件 Heritrix的基础上,采用基于网络爬虫的数据采集技术来获 取点点网的数据。 从图1可以发现,点点网在每篇轻博文下面都有“热 度”,标注喜欢、转载和推荐该文的用户列表。查看源码, 发现“热度”是一个内嵌网页,页面源码中内容比较少,更 多的内容实际上是采用AJAX (Asynchronous Javascript and XML)技术[2]加载出来的。如果直接用Heritirx原有的抓 取方法,抓取不到真正的用户列表。所以,必须对Heritirx 的Extracotr类进行扩展,扩展后的新类DiandianExtractor 重载extract方法,在抓取页面、抽取链接的时候,直接对 热度部分进行分析,通过Selenium WebDriver API驱 动浏览器内核PhantomJS,模拟浏览器获取AJAX内容,得到 和页面呈现一致的页面内容,再通过Jsoup解析页面内容, 并把分析结果存到MYSQL数据库里。至此,AJAX页面采集问 题得到真正解决。 1. 2数据集 据点点网自身统计数据显示,目前点点网注册用户数已 经达到1919万,帖子数达到3547万,数据采集量十分庞大 且处于动态变化之中,要获取整个网络的拓扑数据十分困 难,因此本文采用滚雪球采样法,依据“兴趣标签”,随机 选择两个标签下面的“杰出轻博客”的某篇轻博文作为种 子,利用点点网用户之间的兴趣关系进行广度优先搜索。搜 索页面的 URL 含有post/和 un/common/commentv ,前 一种页面主要由某用户发表的所有博文组成;后一种页面包 括所有“喜欢”、“转载”、“推荐”该用户博文的其他用 户列表。 数据采集器最终抓取近600万页面,总容量接近60G。 通过对这近600万页面信息的实时抽取,共1898356条记录 存放到MySQL数据库里。其中,数据表结构包括id、username (用户名)、inname (链入用户名)、type (链入用户是哪种 类型用户:喜欢、转载还是推荐).link (该记录从哪个链 接得来的)。经过去重(从数据表中删除username和inname 都相同的记录),得到825057条可用记录用于后续网络拓扑 测量。 2点点网的拓扑特性 2. 1网络拓扑测量 3结论 本文选取国内最大的轻博客平台一一点点网作为研究 对象,根据采集下来的点点网样本数据,构造一个基于“发 文一喜欢、转载和推荐”互动的兴趣关系网络。通过

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档