- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
基于云计算技术的网络舆情数据挖掘研究
?
?
易珩+马琪琪+朱玺谕+顾振宇
摘要:梳理现有网络舆情文献研究,基于云计算爬虫技术获取微博API开放平台大数据,量化影响网络舆情传播三大主要因素,利用SPSS统计学软件针对大数据进行数据挖掘,构建散点图、直方图、折线图等描述性统计量,进而利用R语言构建线性回归方程,并针对数据处理结果进行分析,揭示网络舆情传播特点,就网络舆情监管、处理、预防过程中的缺失提出建议,为现存网络舆情传播提供新的研究工具。
关键词:网络舆情;云计算;数据挖掘;描述统计学;线性回归
:TP393:A:1009-3044(2018)01-0032-03
1社会背景
我们已迈入大数据时代,数据挖掘技术与云处理技术的融合运用于多方问题的解决,具有广泛应用性。作为网络舆情这一愈发突出的网络社会问题,我国此类研究仍处于初级阶段,停留在简单的理论分析层面。面对问题的发生,政府部门的解决方案仍多处于隐瞒、躲避等低效处理手段,往往治理效果不佳。现如今,计算机网络与云计算技术的发展与运用可有效地达到“事前预防,事中控制,事候安置”的效果,更好地解决舆情问题,保持社会的和谐安定。
1.2研究现状
网络舆情现主要存在于中国,属于网络发展中的突出问题。国内现研究主要集中于基于社会学与管理学研究,主要探讨公众对于政府行政工作、社会矛盾等事件的態度与反应,多基于某一特定事件进行具体研究,利用问卷调查或理论描述分析,虽具有一定的现实意义,但是由于网络舆情其突发性、不稳定性与复杂性,事件涉及各方人员较为复杂,事件性质各不统一,研究缺乏基于大数据对于网络舆情的整体发展情况与影响因素进行广泛性研究。故本文将结合数据挖掘技术与云计算处理技术针对网络舆情大数据进行分析讨论,更具代表性与适用性。
2相关理论
2.1网络舆情
网络舆情是对社会舆情的反映,也是舆情在互联网上的映射[1]。随着现如今互联网已全面普及,据截至2017年6月中国互联网络信息中心(CNNIC)发布的2017年度《中国互联网络发展状况统计报告》,我国网民规模达到7.51亿。中国网民、新媒体更多地利用互联网平台进行发声,使得网络舆情的传播范围更加广泛,传播速度更加快速。
2.2云计算
现如今,对于云计算没有确切的定义,在本文中,我们引用认可度较广的NIST定义。NIST认为云计算是一种模式,能泛在地、便利地、按需地通过网络访问可配置的计算资源,如网络、服务器、存储器、应用和服务等,这些资源可实现快速部署与发布,并且只需要极少的管理成本或服务提供商的干预[2]。合理地运用云计算技术可以更为高效地预防、处理、监控网络舆情发展情况。
2.3数据挖掘
所谓数据挖掘,就是从大量无序的数据中发现隐含的、有效的、有价值的、可理解的模式,进而发现有用的知识,并得出时间的趋向和关联,为用户提供问题求解层次的决策支持能力[3]。利用数据挖掘技术可以将舆情进行精准分类、特定分析、数据拟合,建立高效的数据库,实现快速准确的信息检索。
3应用过程
3.1数据选取
新浪微博以其会员人数众多、信息量较大、结合移动与PC端等优势,在网络信息的传播过程中成为主流平台,本次我们选取新浪微博作为数据源进行分析。
网络舆情按其政府在网络舆情应对中的角色,可分为涉及政府事件,政府作为当事方与非政府事件,政府作为社会管理者角色[4]。政府事件包含城管暴力执法等事件,非政府事件包含娱乐新闻等事件。近些年,网络舆情情况愈发突出,例2017年8月日,魏凯扬陪同学邓某某、唐某饮酒,导致下午开庭不能正常进行等涉及政府部门事件频发。政府由于其特殊地位,作为敏感性问题更易引起社会关注并造成社会动荡与政府公信力下降等严重后果,成为社会治安的又一不稳定因素。因此,本次将重点分析涉及政府类信息,讨论政府在舆情处理方面存在的缺失环节并加以改进分析。
3.1数据收集
我们利用Python的爬虫技术编写代码用于搜集微博平台移动端与PC端涉及“政府”、“城管”、“法官”等敏感性字样的舆情数据,获取以下信息:①微博发表时间;②微博的内容;③发微博的工具(手机类型或者平台);④微博被转发的数量,以此作为本次研究的数据基础。
3.2数据分析
首先探讨网络舆情传播程度与事件发布时间之间的关系。
将自变量定义为发表时间(以微博舆情事件发表时间表示),我们构建散点图将微博平台近3个月内343件转发数量大于500的涉及“政府事件”在时间轴中标出,分析舆情发生时间主要集中的时间段进行分析。利用SPSS软件进行描述性统计学分析,得出结果如下:
我们发现近3个月内343件“政府事件”发布时间多集中6:00至11:00白天的时间段,在夜间17:00以后呈明显下降趋势。
接着探讨网络舆情传播程度与舆情内容敏感字段个数之间的关系。
文档评论(0)