- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第四章Chapter4数据处理与应用
1234.1常用表格数据处理4.2大数据处理4.3大数据的典型应用
数据处理EXCEL表格处理
数据处理这种类型的数据又该如何处理?
大数据的特征数据体量大数据类型多处理速度、产生速度快价值密度低数量多样速度价值
大数据处理基本思想分治——分而治之分--将问题分解为规模更小的子问题治--将子问题逐个击破合--将已解决的子问题合并,得出原问题的解
大数据处理基本思想为什么要这样做?是否会遇到新的问题?如何解决?子任务同时进行——节约时间问题规模较小——节约成本分治——分而治之
大数据处理大数据类型下列关于分治思想的说法,不正确的是()A.处理大数据时,一般采用分治思想B.对于复杂的问题可以不断划分成小问题,直至可以求解C.运用分治思想,可以提升数据的处理速度D.运用分治思想,系统的容错性得不到保障C
大数据处理大数据类型静态数据:在处理时,已收集完成、在计算时不会发生改变的数据流数据:是指不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随之降低图数据:以社交网络、道路交通等数据为例的众多以图为数据呈现形式的数据
大数据处理大数据类型通过下列方式获取数据,数据类型属于静态数据的是()A.各个监控不断向监控中心发送的数据B.同一时间内收到10万移动设备的位置信息C.服务器的近10天内的IP访问数据日志D.大型购物网站的广告推荐C
大数据处理大数据类型下列关于流数据的描述,不正确的是()A.数据必须采集完成后处理B.数据价值随着时间的流逝降低C.可以采用流计算进行实时分析D.实时分析流数据可以得到更有价值的结果A
大数据处理数据采集结构化数据非结构化数据半结构化数据由二维表结构来进行逻辑表达和实现的数据严格遵守数据格式与长度规范数据结构不规则或不完整,没有预定义的数据模型例:文档、图片、各类报表、音频、视频等。介于结构化数据和非结构化数据之间的数据大数据采集的更多是非结构化和半结构化的数据
大数据处理静态数据——批处理Hadoop是一个可运行于大规模计算机集群上的分布式系统架构,适用于静态数据的批处理计算。
大数据处理数据存储和管理HDFS分布式文件系统主要功能:将大规模海量数据以文件的形式、用多个副本保存在不同的存储结点上,并用分布式系统进行管理是GFS的开源实现特点:容错性高,可以部署在廉价的机器中应用:云盘、网盘Hbase分布式数据库主要功能:基于列的存储方式,用来存储非结构化和半结构化的数据,有良好的横向扩展能力,可管理PB级的大数据,是BigTable的开源实现特点:高可靠、高性能、可伸缩、分布式静态数据——批处理
大数据处理数据计算静态数据——批处理MapReduce(分布式并行计算模型)核心思想:将任务分解并发布到多个节点上进行处理,最后汇总输出处理大规模数据集的并行运算由Map(映射)和Reduce(归纳)组成HDFS提供分布式计算时的数据访问Map函数把处理要求映射为map任务进行计算Reduce函数归纳计算结果并输出
大数据处理数据计算静态数据——批处理Hadoop的设计初衷是面向大规模静态数据的批量处理,以下数据不适合使用Hadoop进行处理的是()A.某市高三学生模拟考成绩B.某小区所有住户上半年的用水量C.某市天气的实时变化情况D.某大型超市3年的生鲜销售情况C
大数据处理数据计算静态数据——批处理目前,云盘的底层一般采用的文件系统是()AHDFSBFAT32CNTFSDExt4A
大数据处理数据计算静态数据——批处理下列关于分布式数据库HBase的理解,不正确的是()A.HBase是谷歌BigTable数据库的开源实现B.建立在HDFS提供的底层存储基础上C.采用基于行的存储方式,可管理PB级的大数据D.主要用于存储非结构化数据和半结构化数据C
大数据处理数据计算流数据——流计算Hadoop适用于处理静态数据,在流数据实时处理时性能不足。★流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合,用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。
大数据处理数据计算流数据——流处理流计算的发展Twitter的分层数据处理架构流计算可以简单、高效、可靠地实现实时数据的获取、传输和存储。
大数据处理数据计算实时处理与批处理的整合2014年9月,大数据处理系统summingbird,它实现了批处理和流计算的整合(Hadoop+storm)。平台的整合缩短了批处理与流处理之间的切换延时时间,有利于减少系统的开销,降低使用成本。
大数据处理数据计算图数据——图计算★图计算:现实中有很多数据以图的形式呈现,或者转换为图以后再进行分析
您可能关注的文档
- 7.2 静电现象(课件)八年级物理下册(苏科版).pptx
- 手抄报制作 小学主题班会.pptx
- 9.8 生态系统的信息传递-高考生物一轮复习课件.pptx
- 1.1 走进技术 课件-高中通用技术粤科版(2019)必修 技术与设计1.pptx
- 3.1 发现与明确设计问题 课件-高中通用技术粤科版(2019)必修 技术与设计1.pptx
- 2.1 设计的创造性思维和工程思维 课件-高中通用技术粤科版(2019)必修 技术与设计1.pptx
- 1.3 感受设计与技术的关系 课件-高中通用技术粤科版(2019)必修 技术与设计1(1).pptx
- 开学第一课 小学主题班会.pptx
- 2.2 流程的设计 课件-高中通用技术苏教版(2019)必修《技术与设计2》.pptx
- 机械实习周记20篇.pdf
文档评论(0)