网站大量收购独家精品文档,联系QQ:2885784924

大数据在舆情探析中应用.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据在舆情探析中应用

大数据在舆情探析中应用   摘 要:2011年麦肯锡发布了《大数据,下一个创新、竞争和生产力的前沿》研究报告之后,大数据概念开始风靡全球。近年来,随着国内微博、微信、娱乐网站等新媒体的兴起和发展,越来越多的民众通过互联网参与到热点话题和热门事件中。所以,通过大数据对网络舆情进行监测和分析,并对民众的态度和倾向做出准确的定位显得非常重要。该文主要通过对大数据论述、网络舆情筛选、舆情捕获存储以及数据分析,来探究大数据在舆情分析中的应用及其价值 关键词:大数据 网络舆情 数据抓取 数据存储 舆情分析 中图分类号:G206 文献标识码:A 文章编号:1674-098X(2017)01(c)-0108-02 ?S着新兴媒体的发展,互联网舆情已经在社会发展中扮演着重要的角色,它已不仅仅局限于个别范围的使用和拓展,而是演变为全民互动型的参与和讨论,所以如何在众多信息中获取最全面的舆情数据,并将舆情数据以最快的速度和最灵活的方式展现出来,使舆情在可控的范围内实现最大的社会和商业价值,显得尤为重要 1 网络舆情 网络舆情不同于传统舆情,传统舆情是民意理论中的一个概念,是民意的一种综合反映。该文所提到的网络舆情,是未经任何中介包装和验证,直接发布于网上的社会舆情,并以互联网为载体,以舆论事件为核心,集民众情感、态度、意见、建议、传播互动和影响力于一身的集合 因为网络舆情的传播介质是网络,网络既具有公开性又具有隐蔽性,同时需要事件、网民、网民情感,以及通过网络介质的传播和互动,所以在既公开又隐蔽的环境中,从众多的信息中捕获并抽取出复杂的网民情绪和态度非常重要 2 舆情捕获 由于舆情具有自由性、交互性、多元性、偏差性和突发性,所以如何从众多舆情中获取实时数据并服务于大众,是新兴媒体所面临的严峻挑战和考验 2.1 关键词确定 在互联网上传播的信息可以用海量来形容,如果针对舆情盲目进行检索,犹如大海捞针,不仅得不到我们想要的数据,还会浪费大量的人力、物力和财力来投入到数据的分析中。所以如何在海量的信息中获取用户想要的数据,“关键词”就显得非常重要,它不仅可以让我们精确地捕获到想要的数据,而且还可以减少脏数据的捕获,大大缩短了舆情分析的时间,提升了舆情分析的反应速率,下面就介绍几种关键词确定的方法 (1)定制关键词。关键词的确定可以从舆情分析的发出者来反向提出,舆情分析的发出者一定是希望从网络舆情中得到某种相关信息,那么我们可以从需求提出者和需求分析者的角度来确定关键词,即关键词由用户提出,并通过需求分析将用户的表述发展为定制词语,并将其定义为用户定制关键词。根据用户定制的关键词来捕获数据,是最直接明了的数据捕获方式 (2)热门舆情关键词。很多网站如百度、搜狐、Facebook、新浪等几乎所有的交互网站都会有热门指数,我们可以借助这些网站自身携带的热门指数,来确定关键词。因为通过热门舆情关键词来捕获数据,一定是网站热门数据,这样不仅可以节省我们分析确定关键词的时间,而且还可以用最短的时间获取最多的分析数据,提高大数据在舆情分析中的反应速率 (3)热搜舆情关键词。热搜舆情关键词不同于热门关键词,由于舆情具有广泛传播性,很多人参与到舆情探讨中,都是通过网络搜索并定位的,所以热搜关键词就是根据搜索引擎的热搜排行榜,来确定舆情关键词,通过热搜排行榜,我们可以第一时间知道并了解网民想要了解的舆论事件 (4)参考舆情发布网站。想要找到网络事件的发展状况和原由,最简单也是最直接的方式,就是找到舆情发布的网站,很多网站就是网络舆情事件的源泉 2.2 数据抓取 当我们通过各种方式获取并确定了关键词之后,如何把关键词变成我们想要的精确数据,就显得非常重要。我们可以通过网络爬虫技术来获取舆情数据 当前主流的数据抓取模式主要包含4个主要部分:网络爬虫技术(Spider)、数据处理技术(Data Process)、爬取URL队列(URL Queue)和数据。爬虫主要是从互联网上捕捉网页内容,并从中抽取出需要的内容。数据处理:对爬虫抓取的内容进行处理。URL队列:为爬虫提供需要抓取数据网站的URL。数据包含3个方面:(1)Site URL:需要抓取数据网站的URL信息;(2)Spider Data:爬虫从网页中抽取出来的数据;(3)Dp Data:经过dp处理之后的数据 2.3 数据存储 因为网络舆情具有及时更新和海量的特性,所以我们如何将抓取到的数据实时保存起来,是非常关键的,它决定了最后舆情分析的全面性和精确性。一般通过IT技术可以将数据存储到数据库中,下面介绍一下当前主流的3种数据库及其区别 Oracle数据文件都是采用二进制编码的文件,而且它可以对SQL在执行过程中的解析和优化指定统

文档评论(0)

linsspace + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档