大数据对统计学的挑战和机遇.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

??

?

??

大数据对统计学的挑战和机遇

?

??

?

?

?

?

?

?

?

???

?

?

?

?

?

徐涛浙江越秀外国语学院

摘要:2010年,全球数据跨入了ZB时代,全球的数据量也越来越多,海量的数据对我们的生活、工作,甚至社会发展、国家经济都产生了实时的影响,大数据时代已然悄悄来临。因为数据关系的内在的本质,它决定了统计学和大数据之间有着密不可分的关系,大数据对统计学产生了挑战又提供了机遇。本论文通过介绍现代统计学体系,根据统计方法将统计学分为推断统计学和描述统计学,本文首先分析了大数据对描述统计学带来的挑战,体现在:给搜集数据方法带来的挑战、给数据存储方法带来的挑战。再者总结了给推断统计学带来的挑战。大数据给统计学带来机遇表现在:统计学作用范围的扩大和统计学家地位的提升。

关键词:大数据给统计学带来的挑战;大数据给统计学带来的机遇;大数据时代

中图分类号:C829.2文献识别码:A文章编号:1001-828X(2015)020-000059-02

当我们对“物联网”、“云计算”等概念的感觉还依然不知所云的时候,“大数据”的发展就已经一发不可收拾了。大数据这个概念的提出可以追溯到上个世纪80年代。我们被包裹在数据的海洋里,生活中几乎任何事物都与数据有关,医疗、金融、体育,我们每一日都在与数据打交道,发微信、到超市购物、打电话、发微博、上班刷卡、买车票、在QQ上聊天等等大量的数据无时无刻不在对我们的工作、生活乃至社会发展产生重要的影响。

当数据变成和人力资源、自然资源同样重要的战略资源的时候,便引起了企业界与科技界的广泛的关注。全球数据总量在以每两年翻一番的速度增长。在移动互联网、社交网络、宽带化、云计算、物联网的催生下,大数据时代已然悄悄来临[1]。

当我们用两分钟,把这行文字看完的过程中:

新浪已经发送了4万条微博,淘宝已经卖出了8万件商品,苹果已经下载了9.3万次应用,人人网已经发生了50万次访问,百度已经产生了100万次搜索查询。

一、统计学的分科

社会科学和自然科学的众多领域都会应用到统计方法,统计学也逐渐发展成为有了各项分支的统计学体系。构成统计方法的两个分支,主要可以分为推断统计学和描述统计学。

描述统计学(DescriptiveStatistics)指的是研究怎样获取那些反映客观现象的数据,并且用图表的形式进行处理加工和展示所收集的数据,最后通过分析和综合概括得出显示客观现象的规律性数量特征。它的内容包括统计数据的收集方法、加工处理方法、显示方法、分布特征的分析和概括方法等。

推断统计学(InferentialStatistics)指的是研究怎样依据样本数据对总体数量特征进行推断的方法,它是在描述样本数据的前提下,以概率形式表述统计对总体的未知数量特征进行的推断。

推断统计学和描述统计学二者相辅相成,密不可分,描述统计学是推断统计学的前提和基础,推断统计学也是描述统计的进步和升华。下文将从描述统计学和推断统计学这两个分支出发,讨论大数据对统计方法带来的挑战和机遇[2-3]。

二、大数据对描述统计学带来的挑战

1.对数据搜集方法的挑战

搜集数据可通过统计报表、普查、抽样调查、重点调查、典型调查等众多途径来获得资料。搜集数据时要着重注意已获得资料的可靠性和真实性。在完善数据的各个阶段都会有误差存在,统计数据的误差主要分为代表性误差和登记性误差。

登记性误差指的是调查过程中因为调查或被调查者的各种人为因素所导致的误差。而在大数据时代下,数据的存储就跟摆在货架上的货物相似,人们能够直接筛选出自己所需的数据,搜集这些数据单单靠测量方法就能完成,并不需要调查对象的配合。当技术完善,在海量的数据传输中,人为想要篡改数据是非常困难的,所以登记性误差会大大降低。

代表性误差主要是指用样本数据进行统计推断的过程中出现的随机误差。这类误差在传统的搜集方法中一般是不能消除的。但在大数据背景下,一方面,数据搜集下的统计调查通常可以认定为普查,而普查的情况下,代表性误差是可以消除的。另一方面,统计数据反映的是大方向的情况,无法细致到每个个体的情况,很难取得更有用的信息。但因为数据时代的发展和进步,统计数据不光可以反映总体方向的情况,更能细致到每个个体的情况。是技术进步所带来数据价值的变化[4-5]。

2.对数据存储方法的冲击

从以前的数据存储方法来看,数据库是对高度结构化数据来进行存储的,一般使用电子表格的形式,这样方便对相对简单的问题进行处理和分析,比较适用于数据处理量小的用户。但是在这个数据飞速增长的时代,数据量的大量增加,从机器处理生成的数据到电子表格,涉及网页博客,PDF,视频,图片等等。这些所有的数据都是特定领域的数据类型,结构相对比较复杂。

三、大数据对推断统计学带来的挑战

统计学的依据是样本统计(普查除

文档评论(0)

姚启明 + 关注
实名认证
内容提供者

80后

1亿VIP精品文档

相关文档