第八章-大数据.ppt

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
5) 数据展现 一般情况下,数据分析的结果都是通过图表、表格、文字的方式来呈现。借助数据展现手段,能更直观的表述想要呈现的信息、观点和建议。常用的图表包括饼图、折线图、柱形图/条形图、散点图、雷达图等、金字塔图、矩阵图、漏斗图、帕雷托图等。 6) 撰写报告 最后阶段,就是撰写数据分析报告,这是对整个数据分析成果的一个呈现。通过分析报告,把数据分析的目的、过程、结果及方案完整呈现出来,以供商业目的提供参考。 8.4.3 数据分析方法 常用数据分析方法有: 1) 聚类分析(Cluster Analysis) 3) 因子分析(Factor Analysis) 5) 相关分析(Correlation Analysis) 6) 对应分析(Correspondence Analysis) 4) 回归分析 2) 方差分析(ANOVA/Analysis of Variance) 8.5 体系架构:Hadoop 8.5.1简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop设计理念之一是扩展单一的服务器为成千上万机器的集群,且集群中每一个机器同时提供本地计算力和存储力。充分利用集群的威力进行高速运算和存储。 可以用Map和Reduce方法来处理分布式计算问题时,尽可能的实现数据处理的本地化,降低由数据移动而产生的代价。每一个Map操作都是相对独立的,所有的Maps都是并行运行的,虽然实践中会受到数据源和CPU个数的影响。同样的,用一个Reduce集合来执行Reduce操作,所有带有相同key的Map输出会聚集到同一个Reduce。能够处理一般服务器不能处理的大数据量处理问题。 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。 空间大数据 目录 一、大数据的涵义与研究意义 二、与空间信息和位置相关的大数据 三、空间大数据的应用 四、空间大数据的存储 五、总结 一、大数据的涵义与研究意义 大数据:大型复杂数据集的聚合,这些数据集的规模和复杂程度常超出目前数据库管理软件和传统数据处理技术在可接受时间下的获取、管理、检索、分析、挖掘和可视化能力。 一、大数据的涵义与研究意义 大数据的特点: 1)Volume(体量大):大量TB级以上已有的数据等待处理; 2)Velocity(速度快):需要响应以s甚至ms计的流数据不断产生; 3)Variety(模态多样):数据来源和类型繁多文本、图片、视频等结构化和非结构化数据并存; 4)Veracity(真伪难辨):由于数据的噪音、缺失、不一致性、歧义等引起的数据不确定性; 5)Value(价值):大数据使得人们以前所未有的维度量化和理解世界,蕴含了巨大的价值,大数据的终极目标在于从数据中挖掘价值。 大数据的核心:预测 一、大数据的涵义与研究意义 研究大数据的意义:科学进步 图灵奖获得者吉姆?格雷提出:大数据是科学研究的第四范式,是从计算密集型科研发展到以大数据为基础的数据密集型科研方法。 科学研究方法的发展 真正的革命并不发生在分析数据的机器,而在于数据本身和我们如何运用数据。 一、大数据的涵义与研究意义 研究大数据的意义:社会变革 2009至今美国政府全面开放了40万联邦政府原始数据集。大数据已成为美国国家创新战略、国家安全战略、国家IT产业发展战略以及国家信息网络战略的交叉领域、核心领域。 21世纪数据的价值有可能等同于20世纪的石油,大数据研究使得人们降低了对因果关系的渴求,而关注相关关系。只需要知道是什么,而不需知道为什么。这将使得理解现实和做决定的基础也将受到根本性挑战。 社会 价值 一、大数据的涵义与研究意义 研究大数据的意义:经济增长 二、与空间信息和位置相关的大数据 指直接或间接关联着相对于地球的某个地点的数据, 包括自然地理数据 和社会经济数据。 空间媒体数据 地理数据 轨迹数据 包含位置的数字化的文字、图形、图像、视频影像等媒体数据,主要来源于移动社交网络、微博等新型互联网应用 指通过GNSS等测量手段以及网络签到等方法获得的用户活动数据,可以被用来反映用户的位

文档评论(0)

weidameili + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档