大数据与统计新思维.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据与统计新思维.doc

PAGE  PAGE 7 大数据与统计新思维   摘要:本文分析了大数据内涵及其给统计工作带来的新思维、新转变。通过大数据发展趋势信息,会产生危害社会进步的数据垃圾,作为数据科学的统计思维的进一步脱胎换骨地发展,从理论和实践上做出了论证分析,并且联系我国实际,探讨了我国大数据与统计设计理论和内容要点。   关键词:大数据 统计新思维   一、大数据内涵解析   不同行业、不同研究领悟的从业者对大数据的理解不尽相同,但是大数据不论从“大”的层面来看还是从“数据”的层面来讲都和传统的数据存在天差地远的区别,二者的区别不仅仅体现在体量上,更体现在数据内涵上。从统计学角度上来理解大数据的含义的话,大数据是建立在现代信息技术和手段基础上的连续的、扩充的数据形式,大数据在记录能力和存储能力上要远远超过传统数据,突破了传统数据固定、不连续、有限和不可扩充的局限性。简而言之,大数据是一切可以记录的符号的集合。   传统统计研究以有意收集的结构化样本数据为研究对象,当今统计研究面临的则是随时随地存储、动态扩充、无限容量的多类型数据。样本数据和大数据的区别在于样本数据是格式化数据,是按照研究目的和一定的抽样方法收集而来的,数据量相当有限,而在研究过程偏离预定方案的情况下,样本数据可能不再试用。根据样本数据进行的统计分析,适用空间也比较小,难以满足多角度、全方位的研究需要,当在研究中出现抽样方案未能预测到的情况时,样本数据不可扩充的缺陷就会直接暴露出来。大数据则不仅仅信息量大,而且在现代信息技术的支持下不受条框的限制,可以接纳任何种类的数据,也无法拒绝任何一个类型的数据。相较于样本数据而言,大数据具有无限大的选择空间,可以胜任多角度、多层次分析的要求。   二、大数据带来的统计思维的变化   (一)转变认识数据思维   从数据来源上看,传统数据收集目的性强,基本可以确定数据提供者的身份,一些数据还支持事后进行核对校正。但是大数据全部来自物联网,其产生之初就不是为了收集目的而存在,而是一切可记录符号的集合,识别数据提供者的身份是非常困难的,也就是说从微观层面追溯大数据的数据来源是不太现实的。   从数据类型上来看,传统数据具有很强的结构性,基本上都是定量数据加上一定形式的定性数据组成,具有一定的标准和格式,并以传统的统计指标和统计图表为格式展现出来。大数据具有非结构性、半结构性和异结构性特点,一切可记录的符号和信息都被其囊括其中,传统的统计指标和统计图表难以体现大数据的多样化和无标准性。另外,大数据产生于不同的网络信息系统,不同的系统之间对数据的分类并不存在统一的标准。现有的数据库本身就是非关系型数据库,在包容多种多样的大量数据的时候不需要对数据的记录结构进行预先的设置。   从数据量化的层面来看,传统数据在多年的统计分析之中已经形成了相对完善和规范的数据量化方式和过程,量化之后的数据基本可以直接运用于数据分析和计算。但是大数据的非结构性使得对其的量化方式、提取方式、如何对接到结构性数据之中成为一个崭新的问题。任何统计分析都难以直接分析非结构化的数据,更不用说从非结构化的数据中得到科学正确的统计结论,在大数据统计工作中,量化的含义本身也发生了变化,对量化结果的呈现形式也不再统一和规范。由此可见,大数据下的非结构化数据不再试用传统的数据结构方式。   (二)转变收集数据思维   统计分析以收集数据为前提,没有经过收集数据过程的统计分析无异于缘木求鱼。传统统计分析中首先要确认分析的目的然后再进行数据收集,并对调查方案或者抽样方法进行精心设计,这个过程中需要消耗大量的时间和精力。大数据出现之后,我们就拥有了大量可供选择的数据,统计分析的对象在种类和体量上都获得大大的提升,所以统计分析工作的重点就转变为选择和比较,收集数据的思维也就转变为如何充分利用大数据,不必要对大数据中能够找到的数据进行专门的调查和收集。   但是,鉴于大数据来源多样、种类繁杂,数据增加速度很快,统计分析在感受数据丰富性的同时也需要思考这样一个难题:存储能力不足、分析能力较差、数据真伪鉴别能力有待提升、关联物选择不佳等等。目前TB级别的数据库已经屡见不鲜,PB级别的数据也已经渐渐盛行,将来甚至可能出现EB、ZB和YB级的数据,电子储备能力的提升已经迫在眉睫,如果数据库不能自动更新就可能会影响到大数据的运用,加之数据库的自动更新还可能会导致数据的丢失和遗漏。在数据库达到一定级别之后进行容量扩充或者数据拷贝的时候,代价是非常惨重的,所以在必要的情况下我们必须对数据库进行筛选和分类,针对性删除一些不重要的数据或者垃圾数据。传统统计分析中中针对性获取数据成为数据收集,当今对大数据进行选择性地删除在本质上也属于数据收集。大数据时代的数据收集理念已经转变为从

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档