RCFile简介及其应用概念.docx

基于 Hive 的文件格式:RCFile 简介及其应用 Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高。 1、hadoop 文件格?式简介 目前 hadoop 中流行的文件格式有如下几种: (1?)?Seque?nceFile SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以key,value的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hive 中的SequenceFile 继承自Hadoop API 的SequenceFile,不过它的key为空,使用value 存放实际的值, 这样是为了避免MR 在运行map 阶段的排序过程。如果你用Java API 编写SequenceFile,并让Hive 读取的话,请确保使用value字段存放数据,否则你需要自定义读取这种SequenceFile 的InputFormat class 和OutputFormat class。 (2)?RCFile RCFile是Hive推出的一种专门面向列的数据格式。 它遵循“先按列划分

文档评论(0)

1亿VIP精品文档

相关文档