- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据时代的网络舆情研究初探
摘 要 文章主要从大数据时代,如何对网络数据进行分析并建立舆情监控和引导机制,找出了集中分析处理方法,并预测了未来大数据舆情研究方向及存在的问题。
关键词 大数据;网络舆情;发展;分析;机制
中图分类号 G2 文献标识码 A 文章编号 2096-0360
2016)08-0035-02
随着数据统计和采集的发展以及网络背景下结构化数据的普及,“大数据”作为这一背景下新生的要素,给社会的各方面带来了深远的影响。舆情分析,是社会科学中一项较为经典的研究领域,对舆情分析的概念的划分可以分为传统舆情分析与网络舆情分析两个方面。传统社会舆情分析立足于经典的方式方法与传统信息传播媒介,致力于研究社会热点事件、新颁布的政策及法律条文对于社会舆论的影响,并试图探索社会舆论与这些“关键事件”之间的关系;网络舆情的研究则立足于计算机网络这一个新生的信息传播媒介下展开,其早期因为网络普及度相对较低等原因,在研究中相对简单粗放,而随着网络普及程度的提高,尤其是在类
似于推特( Twitter )、饭否、 Facebook、新浪微博、人人网等具有方便于海量个人用户快速发布信息的功能的“自媒体
(owned media )”平台的建立与推广,当前的研究转向应对
海量网络数据下的舆情研究。
自媒体与社科研究
自媒体的普及与运用改变了人们的信息处理行为,将个
体塑造成为传播的核心。在这种根本性的转变中,自媒体成
为大数据时代自主生成优质数据的重要平台,同时成为大数
据运用的关键阵地,它具有以下 2 个较为突出的特点。
1)数据数量大, 来源广泛。大数据之所以被称之为 “大”,
源于他的数量相对以前的研究数据来说较大,数据量大的结
果便是数据加工与分析的难度远远大于以前的有限数量下
的数据研究工作;而来源广泛则是指的用来调查的数据不是
从单一的某一个点进行获取,而且扩大到面。
2)数据整体价值高,但单个数据有待进一步规范。在
大数据时代,以微博、微信等为代表的“自媒体”中蕴含了
大量的、具有不同的知识背景独立个体,而相对“匿名”和
不限定格式的表达方式,使得用户得以很方便的表达出自己
内心的实际
观点。
基于自媒体的网络舆情分析关键技术
如前所述,当前在社会科学领域对大数据的应用最为成
功的即为网络舆情分析研究。与传统的基于调查等手段的社
会舆情分析不同,大数据背景下所进行的网络舆情调查因为
网络的普及等原因,所获取的范围更加广阔,从而大大降低
了传统的基于调查的社会舆情分析中因为调查不全而造成
的结论不准的情况,使研究成果更能反映真实的社会舆论情
况。
当前基于自媒体网络舆情分析的关键技术主要有以下
几种。
2.1 信息采集技术
进行网络舆情分析,首要的工作就是进行信息采集。常见的信息采集流程包含数据的爬取、清洗与存储等步骤。
所谓数据爬取,即通过网络爬虫(如比较著名的火车头采集器)或是通过网站 API 接口获取研究数据,当然如果数据相对较小且人员充足的话,也可以利用人工手动采集的原始方法。但是相比之下机器爬取的准确率和效率较高,可以有效缩短研究的时间,而且现在有足够的开源爬虫软件可以辅助相关的数据抓取工作,因此在现有的研究中提倡使用程序自动爬取。
所谓数据清洗,即对所采集数据进行精简处理,去除与研究无关或重复的数据。对于数据清洗,大致可以分为以下
个阶段。
1)数据采集时期的一次清洗。主要的清除对象是无效
链接、重复和无关数据。
2)数据分析时期的二次清洗。主要的清除对象是停用
词。
通过爬取所获得的数据中含有大量的诸如 HTML 语言字
段等对于研究来说是无效的数据,如不将其过滤将会因为其
较高的重复率影响最终的分析结果。因此需要进行数据清洗
工作来去除这些无效
数据。
2.2 网络舆情热点发现技术
所谓网络舆情热点发现,即通过对新闻与目标话题的识
别与跟踪,分析并绘制其发展轨迹,最终利用聚类的方式将
结果推送给用户。
该技术的技术依据为对关键词或话题 (标识标注为 “ #”
号,英文称为 hash tag)的统计数量随时间的变动情况,需
要大量的数据进行支撑。
2.3 热点评估与跟踪技术
所谓“热点评估与跟踪” ,即根据某一特定热点事件中
公众的情感和行为反应,分析其对公众舆论的影响,建立一
套针对舆情变化的评分方案,并设定其中的各状态极值。在
这种研究中,常用的研究手段有词频统计与情感分类。词频
统计,即对所采集并清洗后信息进行统计,然后对统计结果
进行分析,从而得出结论的方法。情感分类,与前述的“数
据清洗”方法类似,将数据与人工编辑成的情感词词典进行
相似性比对,然后进行分类统计。
2.4 网络舆情的分析处理技术
网络舆情的分析处理技术,是大数据背景下社会科学领
域的服务于决策管理层的技术。该技术包含针对网络舆
文档评论(0)