大数据框架整理.docxVIP

下载本文档

2
0
约6.74千字
约 11页
2022-03-18 发布于上海
举报
版权申诉

大数据框架整理.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据框架整理大数据离线部分一、HDFS 1 : HDFS 的架构部分及.工作原理 NameNode :负责管理元素据，将信息保存在内存中 DataNode :保存数据，以块的形式保存。启动后需要定时的向跳，报告自身存储的块信息 NameNode 发送心 2: HDFS 的上传过程 3: HDFS 的下载 4: NameNode 的元数据安全机制以记日志的形式将每一个操作写在磁盘的日志文件中，然后借助 Seco ndary NameNode 的 checkpoint 功能将 fslmage 和日志进行合并。重点：记住 checkpoint 工作过程 5:如果服务器的磁盘坏了，如何挽救数据？配置多个 dfs. name node, name.dir 路径为本地磁盘路径和 nfs 网络磁盘路径。 6 : hdfs 集群中，受到拓展瓶颈的是 NameNode 还是 Data node? 是 NameNode ，因为 DataNode 不够可以很方便的水平拓展，而工作的 NameNode 只有一个，他的存储能力完全取决于他的内存，所以。。。。，但是其实 NameNode —般不会成为瓶颈，因为一个块记录的元数据信息大小约为 150B，如果每一个块大小为 128M 的话，那么 15G 的NameNode 内存可以存储 12PB 的数据。 7: data node 明明已启动，但是集群中的可用 data node 列表中就是没有，怎么办? NameNode 不认。 8:文件下载到 window 中，为什么会报错？默认使用操作系统的内核进行磁盘数据的写入，也就是需要一个 win util 的工具，而默认的安装包中不提供，所以需要编译源码或者设置为使用 Java 的进行磁盘写入。 9 : hadoop 的 HA （高可用）二、 MapReduce 1: MapReduce 中，file in putformat - map - shuffle - reduce 的过程 2 : Map Reduce 中，job 提交的过程 3:自定义 Javabean 作为数据，需要 extends writableandCompareble 接口。 4 :自定义 outputformat ，进行不同方向的处理。 5: MapReduce 的一些应用场景 1、排序并且求 TOP One 和 TOPN 2、求某个用户前几个月的总流量，并且选择出流量前几名的用户。3、reduce 端的 join 4、map 端 join 5、求共同好友问题三、 hive 1 ：什么是 hive ？一个将 sql 转化为 MapReduce 程序的、单机版的、数据仓库工具。通过关系型数据库（mysql 等）来记录表元数据信息。真正的数据在 HDFS 中。 Hive 利用 HDFS 存储数据，利用 MapReduce 查询分析数据 hive2.0 版本之后，都是基于 Spark 处理了。安装的时候，需要注意 jline 的版本冲突。2：如何启动？ 3：执行的 sql 的形式 hiveshell 、 hive -e sql 命令、 hive -f 一个包含着很多 SQL 语句的文件 4： hive 的创建表操作内部表、外部表就差连个关键字（ external 和 location ）分区表、分桶表 5： hive 查询表 join 动态分区分组查询复杂的那个累计报表操作。 6：hive 自定义函数（ UDF ）四、 sqoop 利用 hadoop 的 map 端进行数据的并行导入导出。安装在 HDFS 上，配置 HDFS 的路径和 Hive 路径即可。五、 flume 1： agent ： sources 、 channel 、 sinks 2： sources ： exec 、spooldir 、 arvo （加一个拦截器） 3： channel ：men 、 disk4 ： sinks ：arvo 、HDFS 、 kafka 5： flume 安装在数据源这一边。 6：如何自定义拦截器？ class myiterceptor implements Iterceptor // 里面有一个静态的公共内部类。 public static class mybuilder implements Iterceptor.Builder 7：如何实现 flume 的多级连接，以及如何实现高可用？大数据实时 storm 部分 storm 1:storm 是一个实时的计算框架，只负责计算，不负责存储。它通过 spout 的 open 和nextTuple 方法去外部存储系统（ kafka ）获取数据，然后传送给后续的 bolt 处理， bolt 利用p

您可能关注的文档

文档评论（0）

hao187 + 关注: 官方认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

认证主体武汉豪锦宏商务信息咨询服务有限公司

IP属地上海

统一社会信用代码/组织机构代码: 91420100MA4F3KHG8Q

1亿VIP精品文档

更多 >

大数据框架整理.docxVIP