- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据统计学实践报告
编号经 管 学 院统 计 学 实 践 报 告题 目:专 业:团队信息:学生姓名:指导教师:其他:报告字数:完成日期 :统计学第次实践报告:题目题目内容简介(可包括如下内容,也可自行添加其他内容)1.概念、理论意义、实际意义2.国内外相关研究综述3.本报告主要研究内容及研究目标4.创新点和不足之处(一)大数据的概念 麦肯锡对大数据概念的解释是:大数据是指大小超过传统数据库软件工具抓取、存储、管理和分析能力的数据群。 维基百科的表述是:大数据是难以用现有数据库管理工具处理的兼具海量和复杂性特征的数据集成。 国内专家涂子沛将大数据定义为那些大小已经超出传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。 对于“大数据”(Big data)研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产理论意义 管理统计学课程是近年来经济管理类专业新开的专业基础课程,目的是培养经管类学生能够把统计学知识运用到经济管理中来解决实际问题。随着社会的发展,企业对经济管理类学生的数据处理能力有更高的需求,因此管理统计学的开设满足经管类学生及企业的需求。随着云时代的到来和互联网技术的发展,大数据即大数据技术出现了。 1.数据收集方式和内容变化以往的数据收集方法主要有统计调查和试验方法。根据实际研究需要,收集社会经济现象的统计数据和自然科学领域的数据。这些数据是数字、文字等结构化的数据。大数据时代,统计数据的产生方式呈现多样化,如有网站浏览痕迹、监控视频、GPS系统等产生方式,产生的数据多为非结构化数据很难用二维表格表示,如所有格式的办公文档、文本、图片、HTML、各类图像和音频、视频信息等。结构化数据出现,统计数据的收集方式和内容将会改变。 2.数据处理的对象和方法放发生变化管理统计学中推断统计学的参数估计方法和假设检验方法,主要采用抽样调查法,利用样本数据的信息来估计或者计算总体参数情况。大数据不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。在大数据下,样本集总体,处理数据不再仅仅依赖样本进行数据的推断统计。另外依靠小概率事件不可能发生的参数估计和假设检验方法就失去了处理大数据的意义。但一些传统的数据分析方法,如聚类分析、相关分析、回归分析等方法,仍然是可以使用的。虽然这些传统的分析方法已经被应用于大数据领域,但是他们在处理规模较大的数据集合时,效率无法达到用户预期,且难以处理复杂的数据。3.大数据时代下传统统计学的变革大数据时代的到来,给统计学的发展带来了前所未有的机遇,但同时,也对统计学提出了更多的挑战。在此,本文将从以下 7 个方面阐述大数据时代下传统统计学的变革。样本概念的深化除普查以外,传统统计学离不开样本,样本是研究中实际观测或调查的一部分个体,一个可用的样本必须能够正确地反映总体情况。大数据时代,样本的概念不再这么简单,由于此时数据大部分为网络数据,因此可以将其分为两种类型:一是静态数据,即当客户在查看数据时已经被生成好了,没有和服务器数据库进行交互的数据,直接在客户端创建完毕,对于这种数据,样本等同于总体,这样无需去提取样本并检测样本的可用性,减少了成本,并且总体本身对总体的反映更为准确,减少了误差; 二是动态数据,比如数据是随着时间的推移而变化的,此时,总体表现为历史长河中所有数据的总和,而我们分析的对象为“样本”,这里的“样本”与传统样本的概念不同,因其并非局限于随机抽取的数据,更可以是选定的与分析目的相关的数据。(2). 数据类型的扩大。传统意义上的数据为结构化数据,即可以用常规统计指标或图表表现出来的定量数据或专门设计的定性数据,有固定的结构和标准。大数据是指不仅包括结构化数据,还包含非结构化数据、半结构化数据或异构数据,即一切可以记录和存储的信号,具有多样化的特点,并且传统的统计指标等不一定可以将其完整地表述出来; 其次,大数据的存储不同于传统的数据存储方式,有固定的格式和结构,对于大数据的数据库来说,可以直接将所探测到的信号自动容纳到其中; 最后,由于大数据大部分是指非结构化以及半结构化数据,因此对数据的识别和分类也是多样的,通常用网络信息系统作为识别工具。 (3). 收集概念的扩展。传统统计中,数据的收集需要根据统计分析的目的进行,过程包括设计调查方案、严格控制调查流程,因此具有低效率、高成本的缺点。在大数据时代,对数据的收集分为三步,首先是数据预处理,包括识别与整理; 其次是数据分析,目的为提炼有价值的信息; 最后为数据存储。我们拥有超大量可选择的数据,同时,在存储能力、分析能力、甄别数据的真伪、选择关联物、提炼和利用数据、确定分析节点等方面,都需要斟酌。然而,这并不
文档评论(0)