Facebook数据仓库揭秘之RCFile高效存储结构(doc7页).docxVIP

下载本文档

1
0
约6.87千字
约 9页
2021-01-28 发布于天津
举报
版权申诉

Facebook数据仓库揭秘之RCFile高效存储结构(doc7页).docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Facebook数据仓库揭秘之 RCFile高效存储结构（doc 7页） Facebook数据仓库揭秘：RCFile高效存储结构本文介绍了 Facebook公司数据分析系统中的RCFile存储结构，该结构集行存储和列存储的优点于一身，在MapReduce环境下的大规模数据分析中扮演重要角色。 Facebook 曾在 2010 ICDE (IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hiveo Hive存储海量数据在Hadoop系统中，提供了一套类数据库的数据存储和处理机制。它采用类SQL语言对数据进行自动化管理和处理，经过语句解析和转换，最终生成基于Hadoop的MapReduce任务，通过执行这些任务完成数据处理。图1显示了 Hive 数据仓库的系统结构。 Web Ul * Hive CLI + JDBC/ODBCMap ReduceHDFSBrowse, Query, DDLMetaStoreHive QLThrift APIHive QLParserUser-definedMap-reduce ScriptsThrift API□PlannerExecutionPlanner ExecutionOptimizerOptimizerFileFormatsFileFormatsText FileSequenceFileRCFileText FileSequenceFileRCFile Web Ul * Hive CLI + JDBC/ODBC Map Reduce HDFS Browse, Query, DDL MetaStore Hive QL Thrift API Hive QL Parser User-definedMap-reduce Scripts Thrift API □ Planner Execution Planner Execution Optimizer Optimizer FileFormats FileFormats Text FileSequenceFileRCFile Text File SequenceFile RCFile 图1 Hive数据仓库的系统结构基于MapReduce的数据仓库在超大规模数据分析中扮演了重要角色，对于典型的Web服务供应商，这些分析有助于它们快速理解动态的用户行为及变化的用户需求。数据存储结构是影响数据仓库性能的关键因素之一。Hadoop系统中常用的文件存储格式有支持文本的TextFile 和支持二进制的SequenceFile等，它们都属于行存储方式。Facebook I程师发表的RCFile： A Fast and Spaceefficient Data Placement Structure in MapReducebased Warehouse Systems 一文，介绍了一种高效的数据存储结构 RCFile (Record Columnar File),并将其应用于 Facebook的数据仓库Hive中。与传统数据库的数据存储结构相比，RCFile更有效地满足了基于 MapReduce 的数据仓库的四个关键需求，即 Fast data loadings Fast query processings Highly efficient storage space utilization 和 Strong adaptivity to highly dynamic workload patternso 数据仓库的需求基于Facebook系统特征和用户数据的分析，在MapReduce计算环境下，数据仓库对于数据存储结构有四个关键需求。 Fast data loading 对于Facebook的产品数据仓库而言，快速加载数据（写数据）是非常关键的。每天大约有超过20TB的数据上传到Facebook的数据仓库，由于数据加载期间网络和磁盘流量会干扰正常的査询执行，因此缩短数据加载时间是非常必要的。 Fast query processing 为了满足实时性的网站请求和支持高并发用户提交査询的大量读负载，査询响应时间是非常关键的，这要求底层存储结构能够随着查询数量的增加而保持高速的査询处理。 Highly efficient storage space utilization 高速增长的用户活动总是需要可扩展的存储容量和计算能力，有限的磁盘空间需要合理管理海量数据的存储。实际上，该问题的解决方案就是最大化磁盘空间利用率。 Strong adaptivity to highly dynamic workload patterns 同一份数据集会供给不同应用