- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据框架整理
大数据离线部分一、HDFS
1 : HDFS 的架构部分及.工作原理
NameNode :负责管理元素据,将信息保存在内存中
DataNode :保存数据,以块的形式保存。启动后需要定时的向跳,报告自身存储的块信息
NameNode 发送心
2: HDFS 的上传过程
3: HDFS 的下载
4: NameNode 的元数据安全机制
以记日志的形式将每一个操作写在磁盘的日志文件中,然后借助 Seco ndary NameNode 的 checkpoint 功能将 fslmage 和日志进行合并。
重点:记住 checkpoint 工作过程
5:如果服务器的磁盘坏了,如何挽救数据?
配置多个 dfs. name node, name.dir 路径为本地磁盘路径和 nfs 网络磁盘路径。
6 : hdfs 集群中,受到拓展瓶颈的是 NameNode 还是 Data node?
是 NameNode ,因为 DataNode 不够可以很方便的水平拓展,而工作的
NameNode 只有一个,他的存储能力完全取决于他的内存,所以。。。。,
但是其实 NameNode —般不会成为瓶颈,因为一个块 记录的元数据信息大小约为
150B,如果每一个块大小为 128M 的话,那么 15G 的NameNode 内存可以存储 12PB 的数据。
7: data node 明明已启动,但是集群中的可用 data node 列表中就是没有,怎么办?
NameNode 不认。
8:文件下载到 window 中,为什么会报错?
默认使用操作系统的内核进行磁盘数据的写入,也就是需要一个 win util 的工具,而默认的安装包中不提供,所以需要编译源码或者设置为使用 Java 的进行磁盘写入。
9 : hadoop 的 HA (高可用) 二、 MapReduce
1: MapReduce 中,file in putformat - map - shuffle - reduce 的过程
2 : Map Reduce 中,job 提交的过程
3:自定义 Javabean 作为数据,需要 extends writableandCompareble 接口。
4 :自定义 outputformat ,进行不同方向的处理。
5: MapReduce 的一些应用场景
1、 排序并且求 TOP One 和 TOPN
2、求某个用户前几个月的总流量,并且选择出流量前几名的用户。3、reduce 端的 join
4、map 端 join
5、求共同好友问题三、 hive
1 :什么是 hive ?
一个将 sql 转化为 MapReduce 程序的、单机版的、数据仓库工具。通过关系型 数据库(mysql 等)来记录表元数据信息。真正的数据在 HDFS 中。
Hive 利用 HDFS 存储数据,利用 MapReduce 查询分析数据
hive2.0 版本之后,都是基于 Spark 处理了。安装的时候,需要注意 jline 的版本冲突。2:如何启动?
3:执行的 sql 的形式
hiveshell 、 hive -e sql 命令 、 hive -f 一个包含着很多 SQL 语句的文件 4: hive 的创建表操作
内部表、外部表 就差连个关键字( external 和 location ) 分区表、分桶表
5: hive 查询表
join
动态分区分组查询
复杂的那个累计报表操作。
6:hive 自定义函数( UDF )
四、
sqoop
利用
hadoop
的
map
端进行数据的并行导入导出。
安装在 HDFS 上,配置 HDFS 的路径和 Hive 路径即可。五、 flume
1: agent : sources 、 channel 、 sinks
2: sources : exec 、spooldir 、 arvo (加一个拦截器) 3: channel :men 、
disk4 : sinks :arvo 、HDFS 、 kafka
5: flume 安装在数据源这一边。
6:如何自定义拦截器? class myiterceptor implements Iterceptor
// 里面有一个静态的公共内部类。
public static class mybuilder implements Iterceptor.Builder 7:如何实现 flume 的 多级连接,以及如何实现高可用?
大数据实时 storm 部分
storm
1:storm 是一个实时的计算框架,只负责计算,不负责存储。它通过 spout 的 open 和nextTuple 方法去外部存储系统( kafka )获取数据,然后传送给后续的 bolt 处理, bolt 利用p
原创力文档


文档评论(0)