大数据在舆情探析中应用.doc

下载文档 降价啦

15
0
约3.09千字
约 7页
2017-06-13 发布于福建
举报
版权申诉
保障服务

大数据在舆情探析中应用.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据在舆情探析中应用

大数据在舆情探析中应用　　摘要：2011年麦肯锡发布了《大数据，下一个创新、竞争和生产力的前沿》研究报告之后，大数据概念开始风靡全球。近年来，随着国内微博、微信、娱乐网站等新媒体的兴起和发展，越来越多的民众通过互联网参与到热点话题和热门事件中。所以，通过大数据对网络舆情进行监测和分析，并对民众的态度和倾向做出准确的定位显得非常重要。该文主要通过对大数据论述、网络舆情筛选、舆情捕获存储以及数据分析，来探究大数据在舆情分析中的应用及其价值关键词：大数据网络舆情数据抓取数据存储舆情分析中图分类号：G206 文献标识码：A 文章编号：1674-098X（2017）01（c）-0108-02 ?S着新兴媒体的发展，互联网舆情已经在社会发展中扮演着重要的角色，它已不仅仅局限于个别范围的使用和拓展，而是演变为全民互动型的参与和讨论，所以如何在众多信息中获取最全面的舆情数据，并将舆情数据以最快的速度和最灵活的方式展现出来，使舆情在可控的范围内实现最大的社会和商业价值，显得尤为重要 1 网络舆情网络舆情不同于传统舆情，传统舆情是民意理论中的一个概念，是民意的一种综合反映。该文所提到的网络舆情，是未经任何中介包装和验证，直接发布于网上的社会舆情，并以互联网为载体，以舆论事件为核心，集民众情感、态度、意见、建议、传播互动和影响力于一身的集合因为网络舆情的传播介质是网络，网络既具有公开性又具有隐蔽性，同时需要事件、网民、网民情感，以及通过网络介质的传播和互动，所以在既公开又隐蔽的环境中，从众多的信息中捕获并抽取出复杂的网民情绪和态度非常重要 2 舆情捕获由于舆情具有自由性、交互性、多元性、偏差性和突发性，所以如何从众多舆情中获取实时数据并服务于大众，是新兴媒体所面临的严峻挑战和考验 2.1 关键词确定在互联网上传播的信息可以用海量来形容，如果针对舆情盲目进行检索，犹如大海捞针，不仅得不到我们想要的数据，还会浪费大量的人力、物力和财力来投入到数据的分析中。所以如何在海量的信息中获取用户想要的数据，“关键词”就显得非常重要，它不仅可以让我们精确地捕获到想要的数据，而且还可以减少脏数据的捕获，大大缩短了舆情分析的时间，提升了舆情分析的反应速率，下面就介绍几种关键词确定的方法（1）定制关键词。关键词的确定可以从舆情分析的发出者来反向提出，舆情分析的发出者一定是希望从网络舆情中得到某种相关信息，那么我们可以从需求提出者和需求分析者的角度来确定关键词，即关键词由用户提出，并通过需求分析将用户的表述发展为定制词语，并将其定义为用户定制关键词。根据用户定制的关键词来捕获数据，是最直接明了的数据捕获方式（2）热门舆情关键词。很多网站如百度、搜狐、Facebook、新浪等几乎所有的交互网站都会有热门指数，我们可以借助这些网站自身携带的热门指数，来确定关键词。因为通过热门舆情关键词来捕获数据，一定是网站热门数据，这样不仅可以节省我们分析确定关键词的时间，而且还可以用最短的时间获取最多的分析数据，提高大数据在舆情分析中的反应速率（3）热搜舆情关键词。热搜舆情关键词不同于热门关键词，由于舆情具有广泛传播性，很多人参与到舆情探讨中，都是通过网络搜索并定位的，所以热搜关键词就是根据搜索引擎的热搜排行榜，来确定舆情关键词，通过热搜排行榜，我们可以第一时间知道并了解网民想要了解的舆论事件（4）参考舆情发布网站。想要找到网络事件的发展状况和原由，最简单也是最直接的方式，就是找到舆情发布的网站，很多网站就是网络舆情事件的源泉 2.2 数据抓取当我们通过各种方式获取并确定了关键词之后，如何把关键词变成我们想要的精确数据，就显得非常重要。我们可以通过网络爬虫技术来获取舆情数据当前主流的数据抓取模式主要包含4个主要部分：网络爬虫技术（Spider）、数据处理技术（Data Process）、爬取URL队列（URL Queue）和数据。爬虫主要是从互联网上捕捉网页内容，并从中抽取出需要的内容。数据处理：对爬虫抓取的内容进行处理。URL队列：为爬虫提供需要抓取数据网站的URL。数据包含3个方面：（1）Site URL：需要抓取数据网站的URL信息；（2）Spider Data：爬虫从网页中抽取出来的数据；（3）Dp Data：经过dp处理之后的数据 2.3 数据存储因为网络舆情具有及时更新和海量的特性，所以我们如何将抓取到的数据实时保存起来，是非常关键的，它决定了最后舆情分析的全面性和精确性。一般通过IT技术可以将数据存储到数据库中，下面介绍一下当前主流的3种数据库及其区别 Oracle数据文件都是采用二进制编码的文件，而且它可以对SQL在执行过程中的解析和优化指定统