- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1.大数据:指的是所涉及的数据集规模已经超过了传统数据库软件的获取、存储、
管理和分析的能力。
2.大数据的产生:三个阶段:运营式系统阶段,被动存储在数据库中;用户原创
内容阶段,web2.0 ,主动;感知式系统阶段,感知式系统的广泛使用。
3.物联网架构:三层,感知层、网络层、应用层。
关系: 物联网,移动互联网再加上传统互联网,每天都在产生海量数据,而
大数据又通过云计算的形式,将这些数据筛选处理分析,提取出有用的信息,这
就是大数据分析。
4.大数据存储系统的分类:
分布式数据库,存储结构化数据如 Spanner, Oceanbase, RDS;
分布式文件系统,存储非结构化数据,如 HDFS、GFS、TFS ;
NoSQL(Not Only SQL)数据库:键值存储,如 Redis,类似 Hash 表,存
半结构化数据,常用于分布式缓存;列存储,如 HBase、Bigtable,结构松散,
单表操作,不支持多表连接。
5.大数据的三大关键问题:存 (容量-NAS 等、吞吐量-RAID)、计算(多核、并
行)、容错。
容错:数据容错、计算任务容错(故障检测、计算数据定位与获取、任务迁移)。
RAID0 :并行磁盘;RAID1:镜像冗余;RAID10:1+0;RAID5:校验冗余。
6.Hadoop 的特点:扩容能力、成本低(普通机器)、高效率(在数据所在的节点并
行计算)、可靠性(冗余、自动重新部署失败任务)。
缺点:用 Java 实现,Java 的 IO 处理虽然没有性能瓶颈,但是对于 CPU 密集
型的任务是一个麻烦, 因此,有些算法效率不会提高很多。
7.进程:Master Node:Namenode、Secendary Namenode、Jobtracker ;
Slave Node :Tasktracker、Datanode.
8.MapReduce 流程:把(job 的)输入拆分成固定大小的 splits,每个 split(默认
对应 1 个 block 的大小)对应一个 map task,分发到各节点→map 过程(本地) :
把原数据转换为键值对的形式,并去除不需要/错误的数据;每个 map 任务有一
个内存缓冲区(100mb),写入数据达 80%时 spill(先在缓冲区预排序)到本地磁
盘,键值对按 key 排列组合(sortCombiner :一次简单的 reduce,合并相同
的 key)→送入(其他结点)进行 reduce,reduce 获取 map 输入的过程是同步
多线程进行的(copymerge)。
job :包括数据、M/R 程序、配置信息。把 job 拆分成 map 和 reduce
tasks.
TaskTracker 每隔 3 秒向 JobTracker 发送心跳询问有没有任务可做,如果有,
让其派发任务给它执行。
9.作业调度:默认先进先出 FIFO;支持公平调度(支持多个队列,每个队列可配
置一定的资源量,同一队列中的作业公平共享队列中所有资源)、容量/计算能力
调度(多队列,每个队列中 FIFO,对同一用户提交的作业所占资源量进行限定)。
1.Google 为什么不采用传统的技术,而是 mapreduce、bigtable、GFS ,功能
分别是什么?
(1)GFS :Google 特有的环境与负载需要。Google 主要处理的数据如爬取的网
页、访问日志,计算如词频计算、倒排索引等,特点是单个运算简单、数量庞大、
数据相对独立。
GFS 是一种分布式文件系统,用集群方式提升系统整体容量,支持高吞吐量(顺
序读写、数据存储的基本单元大)。基于大量安装有 Linux 操作系统的普通 PC
构成的集群系统,整个集群系统由一台 Master (通常有几台备份)和若干台
ChunkServer 构成。GFS 中文件被分成固定大小的 Chunk ,分别存储在不同的
ChunkServer 上,每个 Chunk 有多份(通常为 3 份)拷贝,也存储在不同的
ChunkServer 上。Master 负责维护 GFS 中的 Metadata ,即文件名及其 Chunk
信息。客户端先从 Master 上得到文件的 Metadata,根据要读取的数据在文件
中的位置与相应的 ChunkServer 通信,获取文件数据。
(2)BigTable :GFS 是文件系统,不适合结构化数据的存储和访问;不适合使用
RDBMS,不能满足要求海量结构化数据存
原创力文档


文档评论(0)