大数据背景下统计数据质量的影响因素分析.docVIP

大数据背景下统计数据质量的影响因素分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据背景下统计数据质量的影响因素分析

大数据背景下统计数据质量的影响因素分析   摘要:随着云计算技术概念的提出和逐步发展,社会经济正在进入大数据应用时代。大数据背景下,统计工作必须紧紧着眼于用户需求,提升统计数据的质量,更好地发挥统计数据的价值。   关键词:大数据;数据统计;影响因素   大数据的技术应用正在向各个行业渗透,未来的数据将会像石油一样成为重要的资源,推动社会的进步和发展。统计数据只有可靠,准确,及时才能为决策者提供合理的依据,因此保证统计数据的质量,在今天大数据时代显得尤为重要。大数据越来越呈现出海量,非结构化,实时,电子化处理和多元等特点,在数据的处理上带来了难度,数据质量上一些细微的问题将会通过大数据海量的样本被放大,导致严重的问题,这是当下大数据最需要解决的问题。 一、统计数据的质量   (一)统计数据核心的转变   在大数据的背景下,数据统计的核心正发生着变化。传统的数据统计对于数据的核心要求是“准确性”,统计数据要能真实反映发生的问题。而今天的数据统计最终是要向消费者服务的,数据统计的核心要求是“客户需求”。   (二)统计数据的质量要求   针对目前的大数据发展情况,马建光认为统计工作面临的最大挑战是海量的,多样的大数据获取和处理问题,它们决定着大数据的质量。如何解决这种问题,有关专家学者提出:要从技术,流程和管理三个方面入手进行相关问题探讨,而且对统计数据的质量评估也要进行多维度的验证,主要从逻辑规则检验、核算数据重估、计量模型分析、统计分布验证、调查偏差评估、多维评估延伸六个角度。   大数据背景下,在统计数据的质量研究上国内外学者形成了共识:非技术因素中人为因素和环境因素是两大影响因素,非技术性因素在统计数据的质量上应该得到更多关注。大数据背景下,统计数据所呈现出来的特点使得统计数据质量问题极为复杂,这里面既有技术因素也存在非技术因素的作用。为了保证统计数据的质量,需要及时发现各种影响因素,并通过科学的方法将影响降到最低。 二、影响因素分析   美国麻省理工学院的Richard Y.Wang教授提出了全面数据质量管理理论,他认为影响统计数据质量的主要影响因素是流程,技术和管理三个方面。图1展示了这种理论概念模型。   (一)流程维度的影响   从该维度对数据进行分析,主要从数据收集,数据存储,数据使用三个阶段来进行,这是数据的整个生命周期在不同阶段的处理功能。   1. 数据收集阶段   在数据收集的方式和统计标准上,大数据时代因为智能设备,传感器以及社交协作技术的应用和普及,使得数据的来源发生了很大的变化。   如今网页,搜索引擎,社交媒体论坛,主动和被动系统传感器成为大数据的产生来源,海量数据的产生,让统计数据在广度上无限接近“总体”,这样的大数据收集明显地优势就是会增加统计的准确性,但是数据接触范围的扩大会带来许多以前未曾出现的问题。另一方面数据的时效性比以前大大缩短,而有效的数据收集,才能保证统计数据的质量,这也是一种新的挑战。   2. 数据存储阶段   传统的数据存储结构已经无法满足大数据存储的要求,大容量及高扩展性,高可用性,高性能和访问接口的多样性都要求改变单一的数据存储结构。   现在的数据存在着大量视频,图片等非机构化数据,使用以往的存储要经过复杂的转换过程,将其转换为结构化的数据,但是这个过程不可避免地会出现转化方式不合适,直接导致数据的完整性和准确性。实现大数据效益的最大化就必须将这些非结构化的数据与结构化的数据有机结合,建设新型的数据库。   3. 数据使用阶段   大数据时代数据成为一种共享的资源,不再由某一个人或者某一个部门单独使用。数据的提取和更新愈加频繁,这中间的任何失误都将造成数据质量的下降。社会信息化的发展使得数据的产生和传播加快,许多事情的产生都是瞬息万变的,因此对数据进行及时处理分析,才能保证数据的价值不过期,作为决策者才能做出合适的决策。   (二)技术维度的影响   大数据技术包含数据库技术,数据质量检测识别和数据分析技术这三个方面,它是准确预测未来的保障,体现了数据分析的真正价值。   1. 数据库技术   企业数据在大数据时代最明显的特征就是数据量的增加,这种增加的速度是以往难以想象的,呈现出了指数级的增长。增长的内容既有信息量的增长,也有数据结构的增长,因此数据的统计越来越复杂。   传统的数据检测技术在检测结构化的数据时很方便,但是非结构化数据的出现使得传统的检测技术出现了难以应对的情况。数据中错误,缺失,无效或延迟的情况时有发生,这极大地增加了检测的时间成本。企业需要配备更高端的检测设备,引进或者研发新技术来处理大数据,保证数据质量。   2. 数据质量检测和识别技术   数据质量的准确性,适用性和及时性检测依靠人工判断

您可能关注的文档

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档