- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于兴趣轻博客网站拓扑特性分析
基于兴趣轻博客网站拓扑特性分析
摘要:为了了解新型在线社会网络——轻博客网站的拓扑特性,该文以国内最大的轻博客网站——点点网为研究对象,根据用户间兴趣关系构建兴趣网络,从小世界效应、无标度特征和中心度等角度对该网络进行了实证分析,为进一步认识和研究轻博客网站奠定了基础。
关键词:轻博客;社会网络分析;复杂网络;拓扑特性;中心性
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)22-5033-04
根据Garry Tan 2013年一月的调查报告表明,2007成立的轻博客网站Tumblr已经超越Facebook,成为美国年轻人访问最多的社交网站[1]。随着Tumblr的迅速崛起,国内也出现了各种类Tumblr的网站。2011年,许朝军成立了点点网,此后新浪Qing网,网易的lofter、人人网的人人小站、盛大推他等一批Tumblr的追随者都朝着轻博客的方向大步前进。轻博客这种新型的在线社会网络(Online Social Network, 简称OSN)极可能迎来一个高速发展期。同时,轻博客在中国还是一个新生事物,国内尚未见相关研究。因此,结合社会网络分析和复杂网络理论,研究轻博客网站的拓扑特性,不仅能完善国内外对OSN拓扑特性的理论探索,而且有助于了解轻博客中人际关系和信息传播的特征,同时也对实现轻博客舆论的监测、引导、控制等提供重要依据和基础。
1 点点网的数据采集
本文选取国内典型的轻博客网站——点点网作为研究对象,这是因为相比其他,被称为“Tumblr中文版”的点点网是最纯粹的轻博客,其网络结构特征具有很强的代表性。
1.1面向点点网的网络爬虫
采集网站数据的方法有基于API的数据采集和基于网络爬虫的数据采集。通过调用网站提供的API接口可以实现网站数据的便捷抓取与解析,但也要注意:一是API内容开放不全面,例如点点网API是在2011年12月才对外开放,API的种类也很少,目前不到30个;二是API服务商对用户的API接口调用频率与查询的返回结果的最大数量有限制,点点网就规定查询的返回结果不超过20个;三是使用API接口需要解决用户认证问题,如果待获取用户条目太多则会占用大量系统开销等待用户授权许可。因此,该文在开源软件Heritrix的基础上,采用基于网络爬虫的数据采集技术来获取点点网的数据。
从图1可以发现,点点网在每篇轻博文下面都有“热度”,标注喜欢、转载和推荐该文的用户列表。查看源码,发现“热度”是一个内嵌网页,页面源码中内容比较少,更多的内容实际上是采用AJAX(Asynchronous Javascript and XML)技术[2]加载出来的。如果直接用Heritirx原有的抓取方法,抓取不到真正的用户列表。所以,必须对Heritirx的Extracotr类进行扩展,扩展后的新类DiandianExtractor重载extract方法,在抓取页面、抽取链接的时候,直接对“热度”部分进行分析,通过Selenium WebDriver API驱动浏览器内核PhantomJS,模拟浏览器获取AJAX内容,得到和页面呈现一致的页面内容,再通过Jsoup解析页面内容,并把分析结果存到MYSQL数据库里。至此,AJAX页面采集问题得到真正解决。
1.2 数据集
据点点网自身统计数据显示,目前点点网注册用户数已经达到1919万,帖子数达到3547万,数据采集量十分庞大且处于动态变化之中,要获取整个网络的拓扑数据十分困难,因此本文采用滚雪球采样法,依据“兴趣标签”,随机选择两个标签下面的“杰出轻博客”的某篇轻博文作为种子,利用点点网用户之间的兴趣关系进行广度优先搜索。搜索页面的URL含有“post/”和“n/common/comment”,前一种页面主要由某用户发表的所有博文组成;后一种页面包括所有“喜欢”、“转载”、“推荐”该用户博文的其他用户列表。
数据采集器最终抓取近600万页面,总容量接近60G。通过对这近600万页面信息的实时抽取,共1898356条记录存放到MySQL数据库里。其中,数据表结构包括id、username(用户名)、inname(链入用户名)、type(链入用户是哪种类型用户:喜欢、转载还是推荐)、link(该记录从哪个链接得来的)。经过去重(从数据表中删除username和inname都相同的记录),得到825057条可用记录用于后续网络拓扑测量。
2 点点网的拓扑特性
2.1网络拓扑测量
3 结论
本文选取国内最大的轻博客平台——点点网作为研究对象,根据采集下来的点点网样本数据,构造一个基于“发文←喜欢、转载和推荐”互动的兴趣关系网络。通过开源工具Pajek统计点点
您可能关注的文档
最近下载
- 《大学生职业生涯规划》教案 第13课 应征入伍与自主创业政策.doc
- 2.关于干部人事档案审核工作的问答(组工通讯〔总2764号〕).docx
- 《大学生职业生涯规划》教案 第12课 基层就业政策.doc
- 中频炉熔炼操作技术标准.doc VIP
- 2023湖南长沙麓山投资控股集团有限公司招聘46人笔试备考试题及答案解析.docx
- 【广东卷】广东省(江西)上进教育稳派联考2025届高三上学期10月阶段检测联考(10.6-10.8)英语试卷答案.docx
- 认识声现象-说课稿-教科版.ppt
- 《培养自尊自信的》课件.pptx VIP
- 学堂在线《学术英语读写与交流》作业单元考核答案.docx
- 比较级最高级语法课(西游记主题)课件-人教版英语八年级上册.pptx VIP
文档评论(0)