网站大量收购独家精品文档,联系QQ:2885784924

基于MapReduce的微博文本采集平台.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于MapReduce的微博文本采集平台.pdf

V01.39 第39卷第11A期 计算机科学 No.11A 2012年11月 Science NOV2012 Computer 基于MapReduce的微博文本采集平台 于留宝胡长军苏林晗 (北京科技大学计算机与通信工程学院 北京100083) 摘要微博不仅数据量大,而且实时性高,采用传统的Web文本爬取方式,很难在短时间内获取足量的微博。为了 解决研究微博数据面临的数据采集问题,提出了基于MapReduce的微博数据采集平台,将整个微博抓取系统部署在 博采集过程中因输入数据过小导致hadoop不能有效均衡负载的问题,提出了采用多个小文件的输入方式,有效地解 决了负载不均衡的问题。最后以Sina微博为例进行结,结果表明,该系统成本低、扩展性好、效率高,可广泛应用于基 于微博数据的舆情分析以及传播学和虚拟社会学等方面的研究,并作为其基础数据采集平台。 关键词Hadoop,MapReduce,微博,数据采集,Sina 中图法分类号TP311文献标识码A Collection Data Basedon Micro-blogs MapReduce YULiu-baoHU SULin-han Chang-jun of andCommunication (School ofScienceand 100083,China) Computer Engineering,UniversityTechnologyBeijing,Beijing Abstract isnot volumesofdatabutalso itisdifficulttoobtainsufficient only real-time,while Micro-blogs large high in asbort oftime traditionalWebtext the methods.Tosolve aboutdata micro-blogsperiod byusing crawling problem collectionwhen the adatacollectionbasedon whichis researchingmicro-blogs,this paperpresents platfo

文档评论(0)

rewfdgd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档