大数据框架整理.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据框架整理    大数据离线部分   一、HDFS   1:HDFS的架构部分及 工作原理   NameNode:负责管理元素据,将信息保存在内存中   DataNode:保存数据,以块的形式保存。启动后需要定时的向NameNode发送心跳,报告自身存储的块信息   2:HDFS的上传过程   3:HDFS的下载   4:NameNode的元数据安全机制   以记日志的形式将每一个操作写在磁盘的日志文件中,然后借助Secondary NameNode的checkpoint功能将fsImage和日志进行合并。   重点:记住checkpoint工作过程   5:如果服务器的磁盘坏了,如何挽救数据?   配置多个.dir 路径为本地磁盘路径和nfs网络磁盘路径。   6:hdfs集群中,受到拓展瓶颈的是NameNode还是Datanode?   是NameNode,因为DataNode不够可以很方便的水平拓展,而工作的NameNode只有一个,他的存储能力完全取决于他的内存,所以。。。。,   但是其实NameNode一般不会成为瓶颈,因为一个块 记录的元数据信息大小约为150B,如果每一个块大小为128M的话,那么15G的NameNode内存可以存储12PB的数据。   7:datanode明明已启动,但是集群中的可用datanode列表中就是没有,怎么办?   已经不是处女,在她的Data目录下,已经有其他NameNode的标记,这个NameNode不认。   8:文件下载到window中,为什么会报错?   默认使用 操作系统的内核进行磁盘数据的写入,也就是需要一个winutil的工具,而默认的安装包中不提供,所以需要编译源码或者设置为使用Java的进行磁盘写入。   9:hadoop的HA(高可用)   二、MapReduce   1:MapReduce中,fileinputformat - map - shuffle - reduce的过程   2:MapReduce中,job提交的过程   3:自定义Javabean作为数据,需要extends writableandCompareble接口。   4:自定义outputformat,进行不同方向的处理。   5:MapReduce的一些应用场景   1、排序并且求 TOPOne 和TOPN   2、求某个用户前几个月的总流量,并且选择出流量前几名的用户。   3、reduce端的join   4、map端join   5、求共同好友问题   三、hive   1:什么是hive?   一个将 sql转化为MapReduce程序的、单机版的、数据仓库工具。通过关系型 数据库(mysql等)来记录表元数据信息。真正的数据在HDFS中。   Hive利用HDFS存储数据,利用MapReduce查询分析数据   hive2.0版本之后,都是基于Spark处理了。   安装的时候,需要注意jline的版本冲突。   2:如何启动?   3:执行的sql的形式   hiveshell、 hive -e sql命令、 hive -f 一个包含着很多SQL语句的文件   4:hive的创建表操作   内部表、外部表 ? 就差连个关键字(external 和 location)   分区表、分桶表   5:hive查询表   join   动态分区   分组查询   复杂的那个累计报表操作。   6:hive自定义函数(UDF)   四、sqoop   利用hadoop的map端进行数据的并行导入导出。   安装在HDFS上,配置HDFS的路径和Hive路径即可。   五、flume   1:agent:sources 、 channel 、 sinks   2:sources:exec、spooldir、arvo (加一个拦截器)3:channel:men 、 disk4:sinks:arvo 、HDFS、kafka   5:flume安装在数据源这一边。   6:如何自定义拦截器?class myiterceptor implements Iterceptor   //里面有一个静态的公共内部类。   public static class mybuilder implements Iterceptor.Builder   7:如何实现flume的多级连接,以及如何实现高可用?   大数据实时storm部分   storm   1:storm是一个实时的计算框架,只负责计算,不负责存储。它通过spout的open和nextTuple方法去外部存储系统(kafka)获取数据,然后传送给后续的bolt处理,   bolt利用prepare和execute方法

文档评论(0)

138****2623 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档