《大数据平台简介》ppt课件模板.ppt

下载文档 降价啦

152
0
约5.59万字
约 190页
2021-08-24 发布于广东
举报
版权申诉
保障服务

《大数据平台简介》ppt课件模板.ppt

1、本文档共190页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

MPI是一个跨语言的通讯协议，用于编写并行计算机。 LISP是一种通用高级计算机程序语言，用在人工智能领域。LISP为函数式程序设计语言，所有运算都能以函数作用于参数的方式来实现。 * * * * 每个DataNode会定期向NameNode发送一个心跳信息。如果一部分DataNode与NameNode断开了连接，NameNode会根据心跳信息来觉察到。NameNode会将最近没有发送心跳信息的DataNode标记为dead状态，并且不会再像它们发送任何的IO请求。一个节点被标记为dead，此时所有它那里注册过的任何信息对HDFS来说都不起作用了，这也引起了部分block的拷贝数量少于指定值。NameNode会不断跟踪需要备份的block并且启动复制。必须进行重新复制的理由是：一个DataNode可能因为故障而不可用, 拷贝过程可能失败, DataNode上的磁盘可能坏掉, 或者副本数量会被增加。 * * 存储在某个DataNode上的数据很可能会被损坏，可能是由于存储设备故障，网络故障或者软件漏洞所致。HDFS客户端应用实现了对文件内容的校验和。客户端创建HDFS文件时，它会计算每个文件的每个block的校验和并在相同的命名空间下的单独隐藏的文件中保存这些值。当客户端接收文件数据时，会首先验证校验和。如果校验失败，客户端会向其他拥有同样复本的DataNode重新获取数据。 * * FC是要和NN一一对应的，两个NN就要部署两个FC。它负责监控NN的状态，并及时的把状态信息写入ZK。它通过一个独立线程周期性的调用NN上的一个特定接口来获取NN的健康状态。FC也有选择谁作为Active NN的权利，因为最多只有两个节点，目前选择策略还比较简单（先到先得，轮换）。 ZKFC是Hadoop中通过ZK实现FC功能的一个实用工具。利用共享存储来在两个NN间同步edits信息。 DataNode同时向两个NN汇报块信息。用于监视和控制NN进程的FailoverController进程 * * * * * * * * * * 1.首先调用FileSystem对象的open方法，其实是一个DistributedFileSystem的实例2.DistributedFileSystem通过rpc获得文件的block的locations，同一block按照重复数会返回多个locations，这些locations按照hadoop拓扑结构排序，距离客户端近的排在前面.3.前两步会返回一个FSDataInputStream对象，该对象会被封装成DFSInputStream对象，DFSInputStream可以方便的管理datanode和namenode数据流。客户端调用read方法，DFSInputStream最会找出离客户端最近的datanode并连接。4.数据从datanode源源不断的流向客户端。5.如果第一块的数据读完了，就会关闭指向第一块的datanode连接，接着读取下一块。这些操作对客户端来说是透明的，客户端的角度看来只是读一个持续不断的流。6. 如果所有的块都读完，这时就会关闭掉所有的流。 * * 1.客户端通过调用DistributedFileSystem的create方法创建新文件 2.DistributedFileSystem通过RPC调用namenode去创建一个没有blocks关联的新文件，创建前，namenode会做各种校验，比如文件是否存在，客户端有无权限去创建等。如果校验通过，namenode就会记录下新文件，否则就会抛出IO异常. 3.前两步结束后会返回FSDataOutputStream的对象，象读文件的时候相似，FSDataOutputStream被封装成DFSOutputStream.DFSOutputStream可以协调namenode和datanode。客户端开始写数据到DFSOutputStream,DFSOutputStream会把数据切成一个个小packet（64K），然后排成队列data quene。 4.DataStreamer会去处理接受data quene，他先问询namenode这个新的block最适合存储的在哪几个datanode里（参考第二小节），比如重复数是3，那么就找到3个最适合的datanode，把他们排成一个pipeline.DataStreamer把packet按队列输出到管道的第一个datanode中，第一个datanode又把packet输出到第二个datanode中，以此类推。 5.DFSOutputStream还有一个对列叫ack quene，也是有packet组成，等待datanode的收到响应，当pipeline中的所有datanode都表示已经收到的时