基于Hadoop微博舆情分析系统研究与实现.docVIP

下载本文档

112
0
约5.62千字
约 12页
2018-08-28 发布于福建
举报
版权申诉

基于Hadoop微博舆情分析系统研究与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop微博舆情分析系统研究与实现

基于Hadoop微博舆情分析系统研究与实现　　摘要：随着移动网络的高速发展和网络新媒体的广泛运用，越来越多的人已经习惯在网络上发表自己的见解，因此，网络逐渐成为社会舆论的主要平台，新浪微博就是一个典型的例子。但如今产生的舆情数据量越发庞大，所以对舆情数据进行采集、存储、处理以及分析其传播中的关键因素也带来了前所未有的挑战。根据舆情的数据特点，设计和实现了一套基于Hadoop的微博舆情分析系统，为应对舆情危机提供自动化、系统化、科学化的信息支持。　　关键词：舆情分析；数据挖掘；网络爬虫；Hadoop生态系统；微博舆情分析系统；数据可视化　　舆情可简称为舆论情况，其指的是在一定的空间和时间内，民众围绕着社会热议话题中所表达出的情绪、态度及意见的总和。如今互联网高速发展，网络新媒体发展更加迅速，以微博为例，相关研究显示，传统媒体方式普及到五千万人，收音机花了38年，电视机花了13年，而微博只用了14个月。互联网新媒体存在的虚拟、开发以及互动的特性，一方面让新媒体能更快地发展，另一方面则让舆情更加自由，更多的人会对社会热点问题发表自身的看法和意见。与此同时，同一事件往往存在被多元解读的空间，如果引导不力，舆情很可能会出现严重的恶性局面。　　网络舆情参与人数众多，数据量越发庞大。中国互联网信息中心（CNNIC）在2017年1月发布了《第39次中国互联网络发展状况统计报告》，报告显示，截至2016年12月，我国网民规模达7.31亿，互联网普及率53.2%。其中使用手机上网人群的占比提升到95.1%。同时，因为互联网用户数的大幅增加，越来越多的人会通过网络社交平台对社会事件发表自身的看法和意见。由此可见，随着移动网络的高速发展，网络已经成为舆情的重要载体之一。以新浪微博为例，根据新浪微博数据中心发布的2016微博用户发展报告显示，截至2016年9月30日，微博月活跃用户已达到2.97亿，日活跃用户达到1.32亿。因此，这将会产生海量、动态、异构的舆情数据。　　传统的舆情系统是基于服务器集群，采用流量镜像的方法监控舆情数据源。这种措施虽然能够全面地搜集数据，但存在可扩展性差、成本高和容易产生单节点故障等缺点；同时由于互联网数据的高速增长，往往产生异构、海量的网络数据，而Hadoop技术对这类型的数据的存储、处理提供了可靠、高效的解决办法。　　本文在此背景下设计并实现了一个基于Hadoop的微博舆情分析系统。该系统对微博转发数据进行采集，基于Hadoop技术对数据进行处理，最终将数据结果使用可视化图表的方式进行展示。通过该系统应用到各类微博热点舆情问题中，可了解热点舆情事件传播、发酵的关键因素。这对于深入研究网络舆情传播规律、传播关键因素以及有利引导网络舆论是至关重要的。　　1舆情分析系统架构　　1.1系统框架　　Hadoop是一种开源的分布式系统基础架构软件，因其可以充分利用集群的性能进行高速运算和存储而被广泛引用。Hadoop主要由HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）和MapReduce（并行计算框架）两大核心组成。本文中设计和实现的舆情分析系统正是基于Hadoop进行实现，并以MongoDB和HDFS作为非结构化采集和处理数据存储的数据库，CSV格式文件用于暂存采集数据，MapReduce框架用于数据清洗和处理，实现微博数据采集层、微博舆情监控层、用户交互的三层结构。　　图1为舆情分析系统的系统架构，其中分布式计算层完成对采集数据的清洗、过滤以及排序等处理操作，分布式存储层用于存储采集到的数据以及分析结果。　　1.2舆情分析系统功能模块设计　　1.2.1模块总体设计　　舆情分析系统通过采集新浪微博数据，使用Hadoop进行数据清洗和过滤，最终在浏览器中显示可视化的结果。因此分为如下模块：数据采集模块、数据存储模块、数据处理模块、舆情分析模块、交互模块。每个模块的功能如下：　　1）数据采集模块：使用Scrapy爬虫框架并编写相应爬虫代码，采集指定微博的转发信息以及转发用户、博主用户的信息。　　2）数据存储模块：提供对MapReduce、用户交互的存取接口以及暂存采集数据的写人接口，用于存储和读取采集的数据和分析的结果。　　3）数据处理模块：对采集数据进行清洗、ETL（Extract-Transform-Load，提取、转换、载入）等操作。　　4）舆情分析模块：对数据库中的数据进行分词、整理等，将结果输出到数据存储库。　　5）交互模块：基于Django框架实现用户交互功能。　　1.2.2微博数据采集　　数据采集是实现微博舆情分析系统的首要工作，因此获取到原始、全面的舆情数据是相当关键的。本系统主要采