大数据存储与处理：ppt要点大题.pdfVIP

下载本文档

1
0
约6.12千字
约 5页
2020-08-20 发布于中国
举报
版权申诉

大数据存储与处理：ppt要点大题.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1.大数据：指的是所涉及的数据集规模已经超过了传统数据库软件的获取、存储、管理和分析的能力。 2.大数据的产生：三个阶段：运营式系统阶段，被动存储在数据库中；用户原创内容阶段，web2.0 ，主动；感知式系统阶段，感知式系统的广泛使用。 3.物联网架构：三层，感知层、网络层、应用层。关系：物联网，移动互联网再加上传统互联网，每天都在产生海量数据，而大数据又通过云计算的形式，将这些数据筛选处理分析，提取出有用的信息，这就是大数据分析。 4.大数据存储系统的分类：分布式数据库，存储结构化数据如 Spanner, Oceanbase, RDS；分布式文件系统，存储非结构化数据，如 HDFS、GFS、TFS ； NoSQL(Not Only SQL)数据库：键值存储，如 Redis，类似 Hash 表，存半结构化数据，常用于分布式缓存；列存储，如 HBase、Bigtable，结构松散，单表操作，不支持多表连接。 5.大数据的三大关键问题：存 (容量-NAS 等、吞吐量-RAID)、计算(多核、并行)、容错。容错：数据容错、计算任务容错(故障检测、计算数据定位与获取、任务迁移)。 RAID0 ：并行磁盘；RAID1：镜像冗余；RAID10:1+0；RAID5：校验冗余。 6.Hadoop 的特点：扩容能力、成本低(普通机器)、高效率(在数据所在的节点并行计算)、可靠性(冗余、自动重新部署失败任务)。缺点：用 Java 实现，Java 的 IO 处理虽然没有性能瓶颈，但是对于 CPU 密集型的任务是一个麻烦，因此，有些算法效率不会提高很多。 7.进程：Master Node：Namenode、Secendary Namenode、Jobtracker ； Slave Node ：Tasktracker、Datanode. 8.MapReduce 流程：把(job 的)输入拆分成固定大小的 splits，每个 split(默认对应 1 个 block 的大小)对应一个 map task，分发到各节点→map 过程(本地) ：把原数据转换为键值对的形式，并去除不需要/错误的数据；每个 map 任务有一个内存缓冲区(100mb)，写入数据达 80%时 spill(先在缓冲区预排序)到本地磁盘，键值对按 key 排列组合（sortCombiner ：一次简单的 reduce，合并相同的 key）→送入(其他结点)进行 reduce，reduce 获取 map 输入的过程是同步多线程进行的(copymerge)。 job ：包括数据、M/R 程序、配置信息。把 job 拆分成 map 和 reduce tasks. TaskTracker 每隔 3 秒向 JobTracker 发送心跳询问有没有任务可做，如果有，让其派发任务给它执行。 9.作业调度：默认先进先出 FIFO；支持公平调度(支持多个队列，每个队列可配置一定的资源量，同一队列中的作业公平共享队列中所有资源)、容量/计算能力调度(多队列，每个队列中 FIFO，对同一用户提交的作业所占资源量进行限定)。 1.Google 为什么不采用传统的技术，而是 mapreduce、bigtable、GFS ，功能分别是什么？ (1)GFS ：Google 特有的环境与负载需要。Google 主要处理的数据如爬取的网页、访问日志，计算如词频计算、倒排索引等，特点是单个运算简单、数量庞大、数据相对独立。 GFS 是一种分布式文件系统，用集群方式提升系统整体容量，支持高吞吐量(顺序读写、数据存储的基本单元大)。基于大量安装有 Linux 操作系统的普通 PC 构成的集群系统，整个集群系统由一台 Master （通常有几台备份）和若干台 ChunkServer 构成。GFS 中文件被分成固定大小的 Chunk ，分别存储在不同的 ChunkServer 上，每个 Chunk 有多份（通常为 3 份）拷贝，也存储在不同的 ChunkServer 上。Master 负责维护 GFS 中的 Metadata ，即文件名及其 Chunk 信息。客户端先从 Master 上得到文件的 Metadata，根据要读取的数据在文件中的位置与相应的 ChunkServer 通信，获取文件数据。 (2)BigTable ：GFS 是文件系统，不适合结构化数据的存储和访问；不适合使用 RDBMS,不能满足要求海量结构化数据存