大数据与统计分析的关系.PPTVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
? 2014 IBM Corporation * ? 2014 IBM Corporation * * ? 2014 IBM Corporation * * IBM SPSS Statistics 统计分析技术 July 2014 模块一 大数据分析之统计分析综述 * Agenda 大数据与统计分析的关系 IBM SPSS Statistics 的发展及特点 大数据与统计分析的关系 * Volume 海量的数据规模 Variety 多样的数据类型 Value Velocity 快速的数据流转 巨大的数据价值 统计分析的一般流程 * 数据预处理 分析建模 模型发布 目标设定 报告呈现 收集数据 * Agenda 大数据与统计分析的关系 IBM SPSS Statistics 的发展及特点 IBM SPSS Statistics 的发展 功能强大 兼容性好 易用性强 * IBM SPSS Statistics 的特点 大数据的概念现在大家都很熟悉了, 大数据的4V特征也是大家经常谈到的,就是Volume大量的数据,Variety多样性的数据,Velocity实时的数据分析和Value发现大量低密度数据中的价值,可以说大量,多样,实时处理都是大数据的特点,而大数据要解决的核心问题就是如何发现数据中的价值,统计分析就是发现大数据中价值的一个很重要并且最经典方法,随着统计分析的发展,逐渐形成了数据挖掘,机器学习,社交网络分析,舆情分析,推荐引擎等分析技术,都是大数据分析的核心技术,因此学习统计分析就是学习大数据分析的基础。 * 统计分析的一般流程通常包括,目标设定,收集数据,数据预处理,分析建模,模型发布,和报告呈现6部分。 在目标设定阶段,需要确定分析的问题,明确目标,并且确定研究范围即确定研究的总体和样本,从而确定样本的抽取方法,评估所需要的样本量,确定数据收集的方式,和确定分析方法,分析工具。 数据收集包括了电话式访问,面谈收集,网络调查问卷等等,同时该阶段还包括数据的存储和获取,在大数据的时代,这些数据可能都已经存在于网络中的各个角落,数据收集工作就需要将这些零散的数据整理起来,读入统一的分析工具中。 数据的预处理主要是清理数据,以保证数据的准确性,还需要对数据进行必要的转换,如生成新的数据,将连续字段离散化,将字符数据数值化,对数据进行整合汇总等,同时需要对缺失数据进行填充和处理,从而为后续的分析建模提供准备。 分析建模阶段包括了数据的初步分析,通常有描述性统计分析和探索性的统计分析,在初步分析后就是精确的建模分析,尝试寻找最佳的数学模型,以寻求对数据中蕴含信息尽可能完美的解释。 分析建模仅仅是基于历史数据所建立模型,而真正的将模型应用到未来事件的预测需要在模型发布阶段进行,该阶段的目标是将分析得到的模型,信息和知识带给决策者,以便他们为组织机构做出更好的规划。 最后的报告呈现阶段是将所有阶段分析的过程,结果,以非学术化的方式表达出来,可以是文档,图表,网页等形式,从而帮助决策者更好的理解做出决策。 上面这些步骤不是一成不变,或者完全顺序的,可能在分析建模时发现数据处理还不完善需要在进入数据处理阶段,而在模型发布后,往往还需要根据最新的数据更新模型的参数,从而更准确的预测未来的数据。 * IBM SPSS Statistics是世界最著名的统计分析软件之一,目前是IBM业务分析软件部SPSS品牌下的一个核心统计分析软件,是IBM在2009年7月收购SPSS公司后将原来的PASW Statistics软件改名而来。而PASW Statistics软件之前的名称就是SPSS,是世界上最早的统计分析软件,由美国斯坦福大学三位研究生在1968年研发成功,同时成立SPSS公司,并与1975年在芝加哥组建了SPSS总部。 IBM SPSS Statistics 有40多年的历史,广泛的应用在自然科学,社会科学,教育,医疗,政府,企业等各个行业组织,在美国几乎100%的高校都在使用IBM SPSS Statistics ,在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。 IBM SPSS Statistics得到用户广泛欢迎的原因在于其强大的统计分析建模与数据准备功能,方便的图表展示功能,以及广阔的兼容性,界面友好性满足了广大用户的需求,深受广大应用统计分析人员的喜爱。 功能强大是IBM SPSS Statistics的基本特点,提供了各种数据准备与整理技术,囊括了各种成熟的统计方法和模型,为用户提供全方位的统计学算法,如方差分析,回归分析,多元统计方法, 生存分析,时间序列等等。

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档