- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
档案学视角下网络舆情大数据采集研判和归档研究
档案学视角下网络舆情大数据采集研判和归档研究
摘 要:网络舆情大数据信息与纸质和实物档案一样具有档案特质,是社会生产生活中形成的能够反映社会原貌的文字、图片、视频、音频等多种表现形式的历史记录,具有长久保存和归档价值。采集、研判和归档有价值的网络舆情大数据信息是大数据时代对档案工作提出的新要求。
关键词:舆情大数据;采集;归档
1 大数据背景下积极创新网络舆情的采集机制
1.1 数据采集。运用网站API、网络爬虫等技术获取舆情信息。API从网站提供商获取舆情数据,网络爬虫设定目标网站、爬行间隔和存储位置,自动批量化获取网页数据。整合各信息系统,确保信息收集全面、及时、准确,将舆情信息系统互联互通,将种类繁多的数据整合转化为可视化数据。
1.2 数据预处理。数据预处理是指对首次采集的原始数据进行二次处理,删除多余、重复、失真等舆情噪音,确保舆情真实、客观、全面。数据预处理常用的技术手段有三种:第一是对文本进行预处理。对通过舆情采集器获取的未加工的 Web 文本进行初步处理,以便后期对这些 Web 文本进行建模、发现话题等。第二是对话题进行检测。经过文本预处理,使得文本语料库变成VSM向量集。话题检测就是利用 VSM 向量之间的相似度,对文本进行聚类。第三是利用话题综合评价标准对话题进行过滤。
1.3 数据存储。数据存储从本质上说是一个分布式存储系统,它将网络舆情大数据保存在多个远端服务器中,这样本地存储设备或者某个远端服务器出现故障,存储信息出现丢失,另外存储设备中的备份数据将会自动提到恢复作用,从而增强了存储系统的可靠性。
2 大数据背景下努力完善网络舆情的研判机制
2.1 网络舆情的定量研究判断。网络舆情由无数个舆情信息元素构成,一般而言,一个完整的舆情信息具有多重元素,包括舆情信息文本、舆情信息发布者、舆情信息传播者、舆情信息传播平台等。在舆情研究判断的实践方面,与舆情信息量化分析直接相关的帖子数量、跟帖数量等是研究判断的重要指标。
2.2 网络舆情的定向研究判断。对于突发性群体事件的网络舆情治理来说,要关注它的形成过程,从网络上出现舆情信息或意见时起,网民就通过点击、发帖、跟帖等诸多形式参与其中,在传播和评论过程中,分化出诸多观点,观点之间既有联系,也有冲突。对网络舆论要有针对性地分析,判断出是多?低?民共同的意见和观点还是某一特定群体的意见和观点。
2.3 网络舆情的定点研究判断。从整体上看,网络舆情是网民意见的反映,舆情的发生、发展、演变是网民总体推动的结果,但其中一些关键网民,在舆情从量变到质变的过程中发挥着关键作用,对突发性群体事件中网络舆情的处置和沟通也起着关键作用。
2.4 网络舆情的定性研究判断。在网络舆情向网络舆论的转化过程中,一般需要经过舆情信息关注、引发讨论、形成主导意见、舆论生成四个阶段,其中每一个环节都离不开信息的传播和意见的交流,厘清一些影响传播和交流的关键性因素以及非正常因素是舆情研判过程的重点。
社会舆情的研判分析机制是对舆情的定性与定量、定点与定向给出的一种价值和趋向判断的过程。 社会舆情的研判工作是一项系统工程,既是对社会舆情进行日常性和持续性跟踪与搜集,并在此基础上建立网络舆情信息库,又是针对某一突发事件或某一特定任务进行有针对性的研判工作,任务完成则舆情活动便随之结束。需要建立快速有效的研判分析机制,利用现代科技手段对网络信息进行科学采集、上报、归并、整理、汇总、分析和研判。
3 档案学视角下着力构建网络舆情的归档机制
3.1 网络舆情大数据信息归档原则
3.1.1 分层定位原则。分层定位原则主要从两方面入手:网络舆情信息自身分层和归档机构分层。网络舆情分层源于信息自身复杂性和多样性特点,归档工作中对信息分层处理可以保证网络信息归档的针对性和有效性,不同层别网络舆情信息应区别对待。依据归档信息重要性由小到大依次排序,可以将网络舆情大数据信息分为链接级、镜像级、服务级和档案级等几个级别。不同管理职能、不同类型的档案机构也应当根据其业务和服务对象有所侧重,分别制定符合自身机构网络舆情信息资源存档实施方案。地区性综合档案馆是当地信息保存服务机构,网络舆情信息资源归档也应当具有区域性,以本地区范围内网站信息或与本地区相关的网络舆情信息作为归档重点。
3.1.2 信息鉴定原则。网络舆情信息资源归档的对象是有选择性的,因此信息鉴定甄别应是重要的归档原则。信息鉴定原则主要包括信息价值鉴定和信息真伪鉴定。档案价值主要依据网络舆情信息是否具备保存和利用价值来判定,传统文书档案价值鉴定一般从时间、来源、形式和内容等方面去综合分析,网络舆情信息资源价值鉴定亦可以借鉴此类方法。由于网络信息资源数量庞大,内容形式
文档评论(0)