浅析大数据与统计新思维.docVIP

下载本文档

13
0
约4.01千字
约 5页
2018-01-31 发布于上海
举报
版权申诉

浅析大数据与统计新思维.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅析大数据与统计新思维

精品论文参考文献浅析大数据与统计新思维中国联合网络通信有限公司哈尔滨软件研究院黑龙江 150040 摘要：随着信息全球化的不断深入，国际社会成为了一个整体，信息技术的发展带动了整个国际社会的进步。现阶段网络数据的信息量越来越庞大，大数据时代的到来对传统信息模式起到了相当大的冲击作用，其他领域必定受到大数据时代的影响产生一些相应的变化。本文就以大数据时代下统计新思维对于其他领域的影响和发展进行了简单的分析，以促进传统统计学理论能够适应大数据时代的变化。关键词：大数据统计；统计思维 1、前言大数据时代是一个拥有庞大数据类型和规模数量的时代，同时它还有数据更新速度快等特点，这些特点对其他行业和国家经济的发展都有着重要影响。为了使国家能够顺应大数据时代的发展，统计思维的创新十分有必要。本文主要研究了大数据时代统计的发展，希望其他工作者可以通过本文的研究开阔视野，多个角度面对问题解决问题。 2、大数据的处理、抽样与分析 2.1 数据的预处理大数据的预处理包括数据清洗、不完全数据填补、数据纠偏与矫正。利用随机抽样数据矫正杂乱的、非标准的数据源。统计机构的数据是经过严格抽样设计获取的，具有总体的代表性和系统误差小的优势，但是数据获取和更新的周期长，尽管调查项目有代表性，但难以无所不包。而互联网数据的获取速度快、量大、项目繁细，但是难以避免数据获取的偏倚性。将统计机构的数据作为金标准和框架对互联网数据进行矫正，将互联网数据作为补充资源对统计机构的数据进行实时更新，也许是解决问题的一个思路。研究利用多源数据的重叠关系整合多数据库资源的方法，多种专题（panels）的数据可以相互联合，实现单一专题数据不能完成的目标。 2.2 大数据环境的抽样大数据的抽样方法有待研究，“样本”不必使用所有“数据”，不管锅有多大，只要充分搅匀，品尝一小勺就知道其滋味。针对大数据流环境，需要探索从源源不断的数据流中抽取足以满足统计目的和精度的样本。需要研究新的适应性、序贯性和动态的抽样方法。根据己获得的样本逐步调整感兴趣的调查项目和抽样对象，使得最近频繁出现的“热门”数据，也是感兴趣的数据进入样本。建立数据流的缓冲区，记录新发生数据的频数，动态调整不在样本中的数据进入样本的概率。 2.3 大数据的分析与整合针对大数据的高维问题，需要研究降维和分解的方法。探讨压缩大数据的方法，直接对压缩的数据核进行传输、运算和操作。除了常规的统计分析方法，包括高维矩阵、降维方法、变量选择之外，需要研究大数据的实时分析、数据流算法（data stream computing）。不用保存数据，仅扫描一遍数据的数据流算法，考虑计算机内存和外存的数据传送问题、分布数据和并行计算的方法。如何无信息损失或无统计信息损失地分解大数据集，独立并行地在分布计算机环境进行推断，各个计算机的中间计算结果能相互联系沟通，构造全局统计结果。 2.4 网络图模型网络图模型用图的结构描述高维变量之间的相互关系，包括无向图概率模型、贝叶斯网络、因果网络等。网络图模型是处理和分析高维大数据和多源数据库的有效工具，目前己经有丰富的图模型的软件系统，无向图模型利用有或无一条无方向边来描述变量之间的关联关系和条件独立性，可以将高维变量的统计推断问题分解为低维变量的统计推断问题。在一个由众多变量作为结点的大网络中，当收集到一部分变量的信息后，不用计算高维联合概率，而是采用网络传播信息流的方法有效地计算目标变量的后验概率。变量间的因果关系，利用数据学习网络结构，发现产生数据的机制和因果关系网络。 3、大数据与统计学分析方法的区别 3.1 基础数据不同在大数据时代，我们可以获得和分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不再依赖于随机抽样。这意味着，与传统统计学数据相比，大数据不仅规模大，变化速度快，而且数据来源、类型、收集方法都有根本性变化。 ①在数据来源方面，在大数据背景下，我们需要的纷繁多样的数据可以分布于全球多个服务器上，因此我们可以获得体量巨大的数据，甚至是关于总体的所有数据。而统计学中的数据多是经由抽样调查而获得的局部数据，因此我们能够掌握的事“小数据量”。这种情况下，因为需要分析的数据很少，所以必须尽可能精确的量化我们的数据。综上，大数据情况下，分析人员可以拥有大量数据，因而不需要对一个现象刨根问底，只需要掌握事物大体的发展方向即可；然而传统的小数据情况下则需要十分注意