《大数据基本处理框架原理与实践》PPT课件(共16次课)第二次课:HDFS.pptVIP

  • 58
  • 0
  • 约6.29千字
  • 约 31页
  • 2022-03-12 发布于安徽
  • 举报

《大数据基本处理框架原理与实践》PPT课件(共16次课)第二次课:HDFS.ppt

第二次课:分布式文件系统HDFS 刘春 计算机与信息工程学院数据科学系 河南省时空大数据产业技术研究院 河南大学 报告提纲 HDFS分布式文件系统 HDFS的操作流程 什么是文件系统 HDFS的操作接口 操作系统的一部分 是一个软件程序 在用户和计算机的存储设备之间建立桥梁 主要职责 建立了一个硬盘等存储设备中存储内容的目录结构 一般采用树形结构,表示存储内容的不同层次 目录中的每个组成项称为一个文件,目录的树形结构也存储了文件之间的关系 提供了相应的命令和接口来便于用户对存储设备的读写操作 什么是文件系统 当面临海量的数据时….. 什么是分布式文件系统 单台计算机的文件系统可能无法存储所有的数据! 分布式文件系统 利用网络将大量的计算节点互联, 向下将各个节点中的存储容量进行集中管理,向上为用户提供透明化服务, 人们在使用分布式文件系统时,就像使用本地文件系统一样,无需关心数据是存储在哪个节点上、或者是从哪个节点从获取的 Hadoop Distributed File System,Hadoop分布式文件系统 HDFS分布式文件系统 硬件故障容错 HDFS被设计成可运行于由成千上万廉价的普通PC或者商用服务器组成的集群上,集群的每个组成部分都可能在运行时发生故障 HDFS会自动将数据保存多个副本 流式数据访问 面向大数据处理,采用的数据访问模式是一次写入、多次读取 适合批量处理,而不适合于与用户交互的应用 HDFS分布式文件系统—特点 面向大数据集 支持大文件处理,不适合于小文件的处理 典型的HDFS文件大小达到GB到TB量级 大量的小文件将大量占用HDFS中NameNode节点用来存储文件系统文件目录等信息的空间 简化的一致性模型 一个文件一旦被创建和数据写入之后,除了增加之外便不能修改 当文件上传到Hadoop集群后,会进行文件切块、分发和复制等操作,如果文件被修改会导致重新触发这个过程 HDFS分布式文件系统—特点 移动计算比移动数据更经济 HDFS提供接口支持代码向数据迁移 避免了大量数据的传输,消除了网络的拥堵 跨异构软硬件平台的可移植性 基于JAVA语言进行开发 易于从一个平台移植到另一个平台 HDFS分布式文件系统—特点 HDFS的存储策略 文件分块 将大文件按照固定大小拆分成一个个数据块,然后将数据块发送到集群的不同节点进行存储 在初期数据块默认大小为64M,在Hadoop2.0之后数据块默认大小为128MB 不关心文件内容,仅根据内容在文件的偏移量(相对于文件头的偏移)来进行分割 可能会导致逻辑上的一个完整内容,在分割之后被分别存储于不同的数据块中 HDFS的存储策略 多副本机制 HDFS为每个数据块在集群中提供多个备份 默认的是同节点和同机架并行、三副本存储的模式 一个副本存储在用户所使用的机器节点 第二个副本存放在集群中与第一个副本处于不同的机架的机器节点上 第三个副本存放在与第二个副本同一个机架不同的机器节点上 HDFS的架构 报告提纲 HDFS分布式文件系统 HDFS的操作流程 什么是文件系统 HDFS的操作接口 HDFS的操作流程 HDFS的文件读流程 HDFS的操作流程 HDFS的文件写流程 HDFS的操作接口 Shell 命令 Web客户端 JAVA API HDFS的Shell 命令格式 Hadoop fs –cmd args 具体的命令,命令前面的-不能省去 命令的参数 HDFS的常见Shell命令 命令格式 (1)列举一个目录的所有文件 hadoop fs –ls 目录的路径 Found 1 items -rw-r--r-- 1 hadoop supergroup 15 2020-03-12 17:44 /user 示例:列举HDFS根目录下的所有文件 hadoop fs -ls / HDFS的常见Shell命令 命令格式 (2)创建文件夹 hadoop fs –mkdir 文件夹的路径和名称 示例:在HDFS的根目录下创建名为dataset的文件夹 hadoop fs -mkdir /dataset Found 2 items drwxr-xr-x - hadoop supergroup 0 2020-03-12 17:46 /dataset -rw-r--r-- 1 hadoop supergroup 15 2020-03-12 17:44 /user HDFS的常见Shell命令 命令格式 (3)将本地文件上传至HDFS hadoop fs –put 本地文件路径 目标路径 示例:将本地/home/hadoop/下的example.txt文件上传至HDFS根目录/dataset文件夹下 ha

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档