网站大量收购闲置独家精品文档,联系QQ:2885784924

分布式多微博平台数据采集 系统的设计和实现-电子与通信工程专业论文.docx

分布式多微博平台数据采集 系统的设计和实现-电子与通信工程专业论文.docx

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式多微博平台数据采集 系统的设计和实现-电子与通信工程专业论文

万方数据 万方数据 A Dissertation Submitted to PLA Information Engineering University for the Degree of Master of Engineering The Design and Implementation of Ditributed Multiple Microblogging Platform Data Acquisition System Candidate: Jun Cai Supervisor: A.P. Liushengli Oct. 2014 原创性声明 本人声明所提交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表和撰写 过的研究成果,也不包含为获得信息工程大学或其他教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并标示谢 意。 学位论文题目: 学位论文作者签名: 日期: 年 月 日 作者指导教师签名: 日期: 年 月 日 学位论文版权使用授权书 本人完全了解信息工程大学有关保留、使用学位论文的规定。本人授权信息工程大学 可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允许论文被查阅和借 阅;可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 (保密学位论文在解密后适用本授权书。) 学位论文题目: 学位论文作者签名: 日期: 年 月 日 作者指导教师签名: 日期: 年 月 日 保密级别: 保密年限: 年 月至 年 月 (保密委员会公章) 摘 要 随着信息技术的飞速发展,微博在舆论引导和传播等方面作用的日益凸显,微博数据 采集作为了网络舆情分析、商业预测的重要途径,受到了国内外的关注。近些年,针对微 博数据采集的研究取得较大进展,但由于微博的特殊性和新兴性,目前仍没有出现较为成 熟完备的数据采集方法,因此设计开发高效准确的微博数据采集系统具有重要意义。本文 针对微博数据采集技术进行研究,首先介绍了微博开放平台和网络爬虫两种常用微博数据 获取方式和相应的技术细节,分析了各自的优缺点,并给出了基于 goagent 的 twitter 访问 的使用步骤。然后,从实现角度给出一个数据采集器的设计方案,并结合多线程和分布式 的思想加以完善,给出了微博平台接口采集子模块和网络爬虫采集子模块的实现方法,较 好地完成了关键人、关键词、人物关系以及话题传播四项数据采集任务。最后,依据实际 采集器的测试情况结合代码分析给出系统的优化方案。 关键词:数据采集,微博 API,网络爬虫,多线程 第 I 页 Abstract With the rapid development of information technology , microblogging has become increasingly prominent role in terms of public opinion guidance and dissemination,data collection as a microblogging network public opinion analysis,business forecasting an important way,by domestic and foreign concerns. In recent years,research has made great progress in data collection for microblogging,but because of the special nature of microblogging and emerging resistance,there is still no mature complete data collection methods appear,therefore design and development of efficient and accurate data acquisition system microblogging important. In this paper , research on the microblogging data acquisition technology , first introduced the microblogging open platform and web crawlers are two commonly used microblogging data

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档