基于 Hive 的文件格式:RCFile 简介及其应用
Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高。
1、hadoop 文件格?式简介
目前 hadoop 中流行的文件格式有如下几种:
(1?)?Seque?nceFile
SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以key,value的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hive 中的SequenceFile 继承自Hadoop API 的SequenceFile,不过它的key为空,使用value 存放实际的值, 这样是为了避免MR 在运行map 阶段的排序过程。如果你用Java API 编写SequenceFile,并让Hive 读取的话,请确保使用value字段存放数据,否则你需要自定义读取这种SequenceFile 的InputFormat class 和OutputFormat class。
(2)?RCFile
RCFile是Hive推出的一种专门面向列的数据格式。 它遵循“先按列划分
您可能关注的文档
最近下载
- 2024年四川省雅安市中考语文真题.docx VIP
- 防错装置点检表.xlsx VIP
- 小学二年级乘除法口算题每页80道.doc VIP
- 蓝城颐养(康养)小镇的实践与探索.pptx VIP
- 审计学(西南财经大学)中国大学MOOC 慕课 期末考试答案.pdf VIP
- 重庆市第一中学校2024-2025学年高二下学期期中考试数学(原卷版).docx VIP
- 基于PLC的步进电机精确定位控制系统设计与实现.docx VIP
- TCHAA-医疗机构特殊医学用途配方食品运营管理规范.pdf VIP
- 企业所得税年度汇缴申报鉴证业务审计工作底稿模板.xlsx VIP
- 2024年湖南省长沙市长郡教育集团联考中考二模物理试题(含答案).pdf VIP
原创力文档

文档评论(0)