大数据与统计.ppt

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据与统计

大数据是对海量信息进行分析,从而收集有价值的见解、发现规律和预言复杂问题答案的技巧与科学。 统计如何应对大数据时代 理念革命化 采集自动化 存储规模化 挖掘深度化 分析技术化 展现可视化 发布即时化 人才复合化 什么意思? ——真可以! ——过去我喜欢一个人 现在我喜欢一个人 资料中心怎么办 统计资料的大数据中心 统计网络的大数据中心 统计服务的大数据中心 统计历史的大数据中心 正确认识大数据 重视非结构化不等于不要结构化,而是要 做到从非结构化到结构化 接受不准确和混杂不等于不要准确性 强调总体、全数据不等于蔑视或取消抽样 强化相关分析不等于不要因果分析 大数据分析得出的结论也是有偏的 * 著名的高德纳IT咨询公司的德斯纳 * * 弗罗伦斯·南丁格尔把克里米亚战争中战斗死亡和非战斗死亡的士兵数量制作成图表,强烈的视觉效果引起了英国社会的极大反响,直接促成了英国政府出台建立野战医院的决定。 * * * * 资本活跃度指数(Capital Relative Index,简称CRI),是反映一段时期内市场资本活跃程度的指标。其计算公式为:CCRI=报告期A/基期A 。其中,A=(新设企业注册资本-注吊销企业注册资本)/存续企业注册资本 2006年以来,全国季度GDP(现价)同比增长率和企业资本活跃度(CRI)两者保持较为一致的变化趋势,资本活跃度变动领先GDP增长变动大约1~2个季度。 * * 季节调整后财政收入与企业资本活跃度(CRI)保持相似的趋势,CRI相对财政收入拐点有大约2~7月的先行周期。 如图所示:2008年6月全国财政收入增幅下滑,经济危机影响凸显,而表示企业资本活跃度的指标CRI在7个月前的2007年11月就开始下滑,提前反映了经济危机的影响。2009年1月CRI出现反弹,比2009年7月财政收入增速出现反弹提前了6个月。对于近期经济下行引发财政收入增幅的下滑,CRI也提前2~4月有所体现。 * * 企业发展与GDP、全国财政收入存在高度正相关关系,其中注册资本与GDP、全国财政收入的相关性高于企业数量与GDP、全国财政收入的相关性。 基于最近20年历史数据的基本研究结果表明,企业主体发展与经济增长存在相对稳定的比例关系。1990年以来,我国企业注册资本每增加1亿元,将会带来6710万元的GDP增长和1480万元财政收入的增长。 * * * * * * 信息时代的竞争,不仅是劳动生产率的竞争,更是知识生产率的竞争。 数据是信息的载体、是知识的源泉,是直接的财富、就是核心的竞争力,当然也可以创造价值和利润,可以预见,基于知识的竞争,将集中表现为基于数据的竞争,这种数据竞争,将成为经济发展的必然。 上世纪计算机时代发达国家领先,给我国留下了安全隐患,本世纪大数据时代来临,各国基本在同一起跑线,大数据应用我们决不能落后。 * * 数据挖掘步骤: 数据准备:从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集 寻找规律:用某种方法将数据集所含的规律找出来 结果展示:尽可能以用户可理解的方式(如可视化)将找出的规律表示出来 * 数据挖掘的技术基础: 人工智能 机器学习 模式识别 统计学 数据库 可视化技术 * 数据挖掘的任务: 关联分析 聚类分析 分类分析 异常分析 特定群组分析 演变分析 * 分析技术化: 现实:简单的图表、数据对比、数字文字化 大数据时代:数字工具、数学模型、机器智能 * GDP、财政收入与企业注册资本之间的线性关系示意图 经济总量 主体发展与经济社会发展的关联 * 展现可视化: 数据可视化:是指将大型数据集中地以图形、图像形式表示, 并利用数据分析和开发工具发现其中未知信息的处理过程。 * 数据可视化的技术基础: 几何技术 像素技术 图标技术 图层技术 图像技术 分布式技术 统计技术 * 数据可视化的基本思想: 依据数据及其内在模式和关系, 利用计算机生成的图像来获得深入认识和知识 利用人类感觉系统的广阔带宽,来解释错综复杂的过程、 以及来源多样的大型数据集合的内在规律 * 数据利用的技术发展历程实际也是价值探求的摸索历程 数据库 数据仓库 OLAP联机分析技术 数据挖掘 可视化展现 价值应用 统计分析 GIS技术 * ·2012年奥巴马政府预算开支的可视化展示 一眼就可以看出,赤字约占美国总支出的1/3,个人所得税是美国政府最大的财政来源,而国防支出是其最大的支出。 (图片来源:《华盛顿邮报》,2010年2月1日) * 左边为强制性开支,右边为自主性开支。强制开支中最大

文档评论(0)

骨干 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档