- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
社交网络挖掘方案研究.pdf
2015年2月 15日 现代电子技术 Feb.2015
第38卷第4期 Modem ElectronicsTechnique V01.38No.4
社交网络挖掘方案研究
俞忻峰
(南京理工大学 ,江苏 南京 210014)
摘 要 :随着社交网络普及,社交网络的数据获取成为首先要解决的问题。针对如何获取社交网站的数据 ,提 出了基
于API和网络爬虫的两种方法。通过采取对比试验,分别用两种方式在单位时间内抓取微博,比较抓取的微博条数。实验
结果表明,基于API抓取的速度比较快,但是稳定性和数据完整性欠佳 ;基于网路爬虫方式抓取的速度比较慢,但是稳定性
和数据完整性较好。最后提 出通过采用两种方式相结合的方式,能够进一步提高抓取效率。
关键词:新浪微博;数据挖掘;AndroidSDK;新浪API;网络爬虫;信息采集
中图分类号:TN911-34;TP3l1.5 文献标识码 :A 文章编号:1004—373X(2015)04.0025.05
Dataminingschemeofsocialnetworks
YUXin—feng
(NanjingUniverBityofSciertceandTechno[ogy,Nanjing2t00i4,China)
Abstract:With thepopularity ofsocialnetworks,dataacquisition ofsocialnetworksbecomesanurgentproblem.Two
methodsbasedonAPIandwebcrawlerareproposedforthedataacquisitionofsocialnetwork sites.In acontrasttest,thetwo
methodswerearrangedtograbthemicrobloginaspecifictime.Theresultsshow thattheacquisitionbasedonAPIisquickbut
dataincomp|etenessandgrabbinginstabilityarenotgoodenough,theacquisitionbasedonwebcrawlerisslow butdataincom—
pletenessandgrabbinginstabilityarebetter.A schemecombiningtwomethodsisputforwardtofurtherimprovetheefficiencyof
dataacquisition.
Keywords:Sinamicroblog;datamining;Android;SDK;SinaAPI;webcrawler;informationacquisition
根据中国互联网络信息中心(CNNIC)发布了第33次 (2)黄延炜等人研究的利用网络数据采集设备直
《中国互联网络发展状况统计报告》指出:社交网站的整体 接截取微博在网络中的传输数据p1,这种方法和网络爬
覆盖率为61.7%,中国互联网用户总数已经达到6.18亿, 虫相似,效率不高,对数据的提取过程十分复杂。
互联网的渗透率已经达到67.8%。其中微博等社交网络 本文主要立足于如何获取新浪微博上的数据展开
的使用规模为2.81亿,网中微博的使用率l为45.5%。 研究 :采取两种方法来获取新浪微博上的数据。第一种
社交网络的使用率越来越高,微博等社交应用在越 方法是基于微博第三方应用接 口的(API),对接 口编程
来越流行。微博相比传统网络的
文档评论(0)