- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
精品资料/word可编辑
精品资料/word可编辑
PAGE / NUMPAGES
精品资料/word可编辑
DTCC20XX
DM针对大数据量环境下分析型
应用的支持方案
大纲
·一个实际案例
·挑战和解决方案
·下一步工作规划
DTCC20XX
DTCC20XX
一个实际案例
案例简介
DTCC20XX
· 海量数据
· 基于已有硬件投资
– 单服务器节点
– 操作库和分析库合并
· 以查询分析为主,兼顾少量数据维护
硬件与拓扑
千兆交换机
DTCC20XX
应用服务
器
数据汇总
文本
数据
源
文本 Excel
数据
数据清洗与入
库
数据库
服务器
P550
Cpu x 4
Mem 32GB
P550
Cpu x 4
Mem 32GB
源
源
16 X 1TB SAS
RAID 5文本数据源数据
文本
数据
源
数据
案例简介-数据
DTCC20XX
· 以常规数据为主,主要为数值、字符串、
时间类型
· 日增长数据量为约56G,3亿条元组
· 当前数据量3TB
· 最大单表为计费表,目前约150亿条记录
· 数据保存20年后归档为历史数据
· 在线数据规模将超过400TB
典型业务流程
DTCC20XX
– 源数据清洗入库
– 分析统计型查询
· 第一步过滤的筛选条件不确定
· 试错式的查询分析过程,成功后固化,一般包含20多个步骤
· 大规模的连接查询、子查询、联合查询、数据分组与排序、临
时结果集与临时表等
· 复杂SQL不多,但IO非常大
– 日常数据维护
· 手工修改记录内容
· 批量删除
· 定期维护
案例需求
DTCC20XX
· 关键在查询性能
– 第一个过滤步骤
· 筛选字段由用户随机定义,因此无法使用索引
· 一般会得到千万级别的结果集
– 大量的多表连接查询
· 数据装载性能
· 初始入库48亿条,近1T:限48小时,相当于3万条/s
· 后续每3天入库一次,9亿条,168G,限10小时内完成
DTCC20XX
挑战-核心是性能
原有产品难以支持分析型应用DTCC20XX
·
·
·
·
·
·
·
只支持行式存储
查询优化器比较简陋
虚拟机实现不尽合理
物理存储设计有待优化
日志系统过于复杂
不能充分利用多机资源提升性能
数据分片技术不完善
于20XX年开始新一代产品DM7的研制
DTCC20XX
实验室原型
技术积累阶段
实现各类标准
持续的技术积累
5.6引入物理操作符,虚拟机
6.0引入高级特性和oracle 兼容特性
5
DM7
20XX
稳定性及功能
与开源系
统有差距
3
DM5.6
4
DM6
20XX
对DM4-DM6的技
术总结
融合列存储与行
存储
基于向量数据的
1
DM1-DM3
2
DM4
20XX
20XX
执行内核
原生的MVCC
OLAP应用的支
持
1988-
20XXDM系统研制历程
DM系统研制历程
对于性能的理解
DTCC20XX
应用系统的
设计
表达式计算
优化器
综合性能
数据/控制权
传递
I/O效率
并发/并行
数据控制权传递-批量技术 DTCC20XX
– 向量数据处理
– 在数据泵一次传送一批数据
– 减少控制转移的CPU损耗;
– 有利于批量的表达式计算
传统的数据传递
PROJECT
FILTER
一次只传递一条记录
每个操作符一次只处理一
行记录
1
1
1
…
控制权需要反复传递
SCANDTCC20XX
DTCC20XX
向量式的数据传递
PROJECT
减少控制权限的反复传递
提升CPU的有效利用率
FILTER
便于表达式批量计算
SCAN12…N12…N…………
1
2
…
N
1
2
…
N
…
…
…
…
DTCC20XX
DTCC20XX
批量技术-数据入库
DTCC20XX
– 将系统的初始数据入库
– 原有BCP接口达到5000条/s,仍无法满足要求
– 改进:
· 在服务器端实现批量,减少执行流程中的控制跳转
· 效率提升8倍
批量技术-全表更新
DTCC20XX
普通
批量
普通批量
绑定
针对大表更
新的特定的
批量绑定消
息
计划生成
生成特定计
划,减少执
行流程
单趟扫描一个ID进行
更新,执行20万
您可能关注的文档
最近下载
- 青志愿者协会组织机构图.docx VIP
- 专题18:诗词三首(行路难、酬乐天扬州初逢席上见赠、水调歌头明月几时有)(含答案析)-中考语文基础·练习·突破课内诗歌高效复习ABC.docx VIP
- 浙教版劳动一年级上册3-2 餐具我来摆 教案(表格式).pdf VIP
- 南京大学2020-2021学年第1学期《生物化学》期末考试试卷(B卷)及标准答案.docx
- 八年级生物上册复习ppt课件(新版)新人教版.pptx VIP
- 市政管道接驳专项施工方案.docx VIP
- 家庭教育促进法-完整版ppt课件.pptx
- 045111学科教学 - 重庆师范大学研究生院 .pdf VIP
- 17J925-1 压型金属板建筑构造图集.pdf VIP
- 南京大学2020-2021学年第1学期《生物化学》期末考试试卷(A卷)及标准答案.docx
原创力文档


文档评论(0)