专6卞昊穹-DTCC2017演讲.PDF

专6卞昊穹-DTCC2017演讲

宽表列存储在大数据分析中的 应用与优化 卞昊穹 中国人民大学-数据库与智能信息检索实验室 博士研究生 导师:杜小勇、陈跃国 /dbiir/rainbow 宽表列存储在大数据分析中的 应用与优化 什么样的 查询 什么样的 数据 怎么存? 哪种存储 介质 啥样的数 哪种平台 据格式/ 布局? 开发 改良 优化 各种数据都存在HDFS上 2003 GFS 2004 MapReduce 2006 BigTable 2010 Dremel 2007 2008- 2009 HDFS存储格式 • Text File • Sequential File • RCFile/ORC • Parquet • …… RCFile 2011 2013 2016 {parquet,orc,carbondata}. HDFS存储格式 RCFile, Yongqiang He et.al, ICDE 2011 宽表 • 100列,常见上千、上万列 • 在大数据分析中普遍存在: • 某银行分析负载:200-1000列 • Microsoft Bing Search Log :1000列 • 某互联网公司用户画像数据: 10000列 • 华为很多客户产品线: 200列,不断增长 • 反规范化避免连接 ( WideTable , Yinan Li et.al. VLDB2014) :TPC-H - 宽表 • 宽表存储在HDFS上,采用列存 宽表 宽表 • 相对于行存,列存极大提高了宽表上 分析负载的I/O性能 • 当一个查询只访问1000列中的20个时, 无须读取整个数据块,最大限度减少 了所读取的数据量 宽表 +列存储 = ? • Parquet格式,400GB ,1187列,单机 • Spark SQL读取8列,总数据量0.3% (1.2GB ) • 磁盘顺序读带宽100MB/s 1.2GB = 12s 理想 100MB / s 现实很骨感 968” 时间都去哪了 CPU Overhead ? Tuple组装?任务调度?计算?Shuffle ? Parquet R

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档