大数据对统计学的挑战和机遇.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据对统计学的挑战和机遇 从学科角度而言,大数据对海量数据进行存储、整合、处 理和分析,可视为一种新的数据分析方法, 这种基于数据关系的 内在本质决定了大数据与统计学之间的必然关系, 大数据对统计 学的发展既提出了挑战又提供了机遇。大数据对统计学的挑战体 现在:大样本标准的调整、样本选取标准和形式的重新确定、统 计软件有待升级和开发及实质性统计方法的大数据化。 大数据对 统计学的机遇体现在:统计质量的提高、统计成本的下降、统计 学作用领域的扩大、统计学科体系的延伸及统计学家地位的提 升。 大数据统计学挑战机遇 一、大数据与统计学的比较 统计学在大数据的研究中存在一定的应用, 表现在将“大数 据”变成“小数据”,对海量数据的搜索、聚类和分类依赖于统 计学的一般方法,因而大数据的研究继承了统计学科的一些特 点。但大数据尚未被统计学吸纳和应用, 这主要是由于大数据与 统计学存在两个很关键的差别。 第一,样本统计和全样本统计的差别。 统计学依赖于样本统 计(普查除外),样本是按照一定的概率从总体中抽取并作为总 体代表的集合体,而随机抽样是有成本的,如时间成本、资金成 本、社会关系等。在样本规模增加有限的情况下,总体数量越大 样本估计的误差就越大,这是样本统计不可避免的缺陷。 第二,预测分析和非预测分析的差别。 统计学旨在分析变量 之间的相关关系,即两个或两个以上变量之间存在的某种规律 性,故数据搜集是发生在变量确定之后, 数据的分析价值是可预 测的。如若要研究利率对消费行为的影响, 则利率大小和消费支 出的数据会有目的地被搜集和分析。 一旦分析目的完成, 为该目 的而搜集的数据的价值也就完全实现。 二、大数据对统计学的挑战 大数据与统计学的关系及其本身的优势, 意味着未来统计学 的大数据化是不可避免的趋势, 现有的统计学与大数据之间还存 在着一些不相容的地方, 为积极应对这一趋势, 就必须对现有的 统计学理论和方法作出相应的调整甚至是某些方面的完全革新。 统计学依赖于样本统计, 主要研究客观事物数量关系和数量 特征。大数据时代产生了海量的即时的电子化数据, 其样本量大, 甚至可以覆盖全部总体,所以包含更多的信息量。例如,传统的 经济统计一般细化到行业层面或产品层面, 但电子商务的发展和 条形码的普及让记录具体到每一次交易行为。 网上电子化交易信 息,企业电子化经营记录,部门电子化行政记录,为统计调查提 供了海量数据, 对统计学样本规模的扩大提供了可能性。 传统统 计学依赖于结构化数据, 如数字、符号等信息, 但非结构数据(包 括文本、图像、图像、音频和视频等信息)和半结构化数据(如 HRM文档)同样蕴涵着海量信息和统计规律,如医疗行业的一 张CT扫描图像约含150MB的数据,一个基因组序列文件约含 750MB统计学是研究事物本身的数量关系,但并非所有的研究 对象都有量化指标, 也不是所有的量化指标能够很好地说明研究 对象,如以最大股东所持资产占总资产的比例来表示公司治理结 构不如一张公司治理结构图更精确。目前大数据采集到的数据 85%以上是非结构化和半结构化数据,传统的关系数据库无法胜 任这些非结构化和半结构化数据的处理, 但大数据可通过建立非 结构数据库对这些海量数据进行标准化处理, 将非结构化数据转 化为结构化数据, 从而发挥这些多元化数据的潜在作用。 倘若传 统统计学能突破结构化数据的限制, 降低样本选取标准, 建立非 结构数据库, 使统计学的数据基础呈多元化, 则统计学的应用范 围会大幅扩大。 三、大数据对统计学的机遇 海量数据的存在使得我们利用统计方法处理问题时可以使 用更多的数据, 甚至在某些场合能够使用全体数据, 数据不再成 为统计分析制约因素, 大数据基础上的统计学效率和拟合度预测 准确性可以大大提高, 并且能够发现很多在样本统计时上无法发 现的细节。统计学的优势在于“以小见大” , 这是统计学的优势, 同时也是统计学在小数据约束下的妥协。 在大数据时代, 可将统 计学的长处和大数据的优点结合起来, 实现“以小见大”和“由 繁入简”的有效结合。 合理利用大数据有利于统计质量的提高, 主要表现在三个方 面:时效性增强、误差减小和可信度增强。传统统计数据通常存 在滞后性且呈现低频率, 而大数据的及时性能够弥补传统统计数 据的这一缺陷,使统计数据的时效性增强。以消费者物价指数 (CPI)的统计数据为例,CPI的发布以月为频率,但一般都存 在滞后期, 如我国的 CPI 通常在每个月的 9 号才能发布上个月的 CPI;而“在线价格指数”能够对市场价格进行实时跟踪和汇总, 能够提供及时的统计信息, 且在线价格指数可以将频率从月提高 到天甚至更高,能够细致地分析通货膨胀规律。 同时,大数据的广泛覆盖性能够很大程度地降低统计结果的

文档评论(0)

2105194781 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档