专6卞昊穹-DTCC2017演讲
宽表列存储在大数据分析中的
应用与优化
卞昊穹
中国人民大学-数据库与智能信息检索实验室
博士研究生 导师:杜小勇、陈跃国
/dbiir/rainbow
宽表列存储在大数据分析中的
应用与优化
什么样的
查询
什么样的
数据 怎么存?
哪种存储
介质
啥样的数
哪种平台 据格式/
布局?
开发
改良 优化
各种数据都存在HDFS上
2003 GFS
2004 MapReduce
2006 BigTable
2010 Dremel
2007
2008-
2009
HDFS存储格式
• Text File
• Sequential File
• RCFile/ORC
• Parquet
• ……
RCFile
2011 2013 2016
{parquet,orc,carbondata}.
HDFS存储格式
RCFile, Yongqiang He et.al, ICDE 2011
宽表
• 100列,常见上千、上万列
• 在大数据分析中普遍存在:
• 某银行分析负载:200-1000列
• Microsoft Bing Search Log :1000列
• 某互联网公司用户画像数据: 10000列
• 华为很多客户产品线: 200列,不断增长
• 反规范化避免连接 ( WideTable , Yinan Li
et.al. VLDB2014) :TPC-H - 宽表
• 宽表存储在HDFS上,采用列存
宽表
宽表
• 相对于行存,列存极大提高了宽表上
分析负载的I/O性能
• 当一个查询只访问1000列中的20个时,
无须读取整个数据块,最大限度减少
了所读取的数据量
宽表 +列存储 = ?
• Parquet格式,400GB ,1187列,单机
• Spark SQL读取8列,总数据量0.3%
(1.2GB )
• 磁盘顺序读带宽100MB/s
1.2GB = 12s 理想
100MB / s
现实很骨感
968”
时间都去哪了
CPU Overhead ?
Tuple组装?任务调度?计算?Shuffle ?
Parquet R
您可能关注的文档
- 上海外国专家局对聘请外教的材料要求.DOC
- 上海干霾与湿霾气溶胶消光特性的比较-兰州大学学报.PDF
- 上海律师协会律师代理海洋污染损害赔偿案件操作-宁波律师协会.DOC
- 1993—2011年北大西洋与北太平洋的波浪变化及其原因探究.PDF
- 2000年MRI及答案-影像FTP.DOC
- 2001北京着名重点中学高考模拟试卷精选化学第十模拟-有途高考.DOC
- 2002年广西壮族自治区中等学校招生考试试题-教育路路通.DOC
- 2004AIME题目及解答.DOC
- 2004年10月高等教育自学考试管理心理学试题-达德教育专业正规.DOC
- 2004年宪法修正案的法理学解读.DOC
- 云南省普洱市景东县第一中学2024-2025学年高二下学期期末考试政治试题.pdf
- 第三单元 只有一个地球 单元教学设计 2026科学三年级下册教科版.pdf
- 重庆市巴南区木洞中学2025-2026学年高一上学期12月月考信息技术试题.docx
- 2026届浙江省精诚联盟高三上学期适应性联考技术试题-高中信息技术.pdf
- 沪粤版八年级物理上册第一章《走进物理世界》单元测评试题(含答案解析).pdf
- 2026届浙江省精诚联盟高三上学期适应性联考技术试题-高中信息技术.docx
- 2026届山东省济南市商河县第二中学一模信息技术试题.pdf
- 2026届山东省济南市商河县第二中学一模信息技术试题.docx
- 沪粤版八年级物理上册期中模拟试卷(二).pdf
- 四川省遂宁市第八中学 2025-2026 学年九年级上学期第一次月考历史试题.docx
原创力文档

文档评论(0)