专6卞昊穹－DTCC2017演讲.PDF

下载文档 降价啦

17
0
约8.14千字
约 57页
2018-10-14 发布于天津
举报
保障服务

专6卞昊穹－DTCC2017演讲.PDF

专6卞昊穹－DTCC2017演讲

宽表列存储在大数据分析中的应用与优化卞昊穹中国人民大学-数据库与智能信息检索实验室博士研究生导师：杜小勇、陈跃国 /dbiir/rainbow 宽表列存储在大数据分析中的应用与优化什么样的查询什么样的数据怎么存？哪种存储介质啥样的数哪种平台据格式/ 布局？开发改良优化各种数据都存在HDFS上 2003 GFS 2004 MapReduce 2006 BigTable 2010 Dremel 2007 2008- 2009 HDFS存储格式 • Text File • Sequential File • RCFile/ORC • Parquet • …… RCFile 2011 2013 2016 {parquet,orc,carbondata}. HDFS存储格式 RCFile, Yongqiang He et.al, ICDE 2011 宽表 • 100列，常见上千、上万列 • 在大数据分析中普遍存在： • 某银行分析负载：200-1000列 • Microsoft Bing Search Log ：1000列 • 某互联网公司用户画像数据： 10000列 • 华为很多客户产品线： 200列，不断增长 • 反规范化避免连接 ( WideTable , Yinan Li et.al. VLDB2014) ：TPC-H - 宽表 • 宽表存储在HDFS上，采用列存宽表宽表 • 相对于行存，列存极大提高了宽表上分析负载的I/O性能 • 当一个查询只访问1000列中的20个时，无须读取整个数据块，最大限度减少了所读取的数据量宽表 +列存储 = ？ • Parquet格式，400GB ，1187列，单机 • Spark SQL读取8列，总数据量0.3% （1.2GB ） • 磁盘顺序读带宽100MB/s 1.2GB = 12s 理想 100MB / s 现实很骨感 968” 时间都去哪了 CPU Overhead ？ Tuple组装？任务调度？计算？Shuffle ？ Parquet R

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

专6卞昊穹－DTCC2017演讲.PDF