- 1、本文档共70页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DM针对大数据量环境下分析型应用的支持方案v..doc
DM针对大数据量环境下分析型应用的支持方案v2.0
DTCC2011DTCC2011
大纲
??一个实际案例
??挑战和解决方案
??下一步工作规划
DTCC2011DTCC2011
一个实际案例
DTCC2011DTCC2011
案例简介
?? 海量数据
?? 基于已有硬件投资
– 单服务器节点
– 操作库和分析库合并
?? 以查询分析为主,兼顾少量数据维护
DTCC2011DTCC2011
硬件与拓扑
数据汇总
文本
数据
源
文本
数据
源
文本
数据
源
Excel
数据
源
数据清洗与入
库 4G
B
光
线
通
道
数据库
服务器
应用服务
器
P550
Cpu x 4
Mem 32GB
P550
Cpu x 4
Mem 32GB
16 X 1TB SAS
RAID 5
千兆交换机
DTCC2011DTCC2011
案例简介-数据
?? 以常规数据为主,主要为数值、字符串、
时间类型
?? 日增长数据量为约56G,3亿条元组
?? 当前数据量3TB
?? 最大单表为计费表,目前约150亿条记录
?? 数据保存20年后归档为历史数据
?? 在线数据规模将超过400TB
DTCC2011DTCC2011
典型业务流程
– 源数据清洗入库
– 分析统计型查询
?? 第一步过滤的筛选条件不确定
?? 试错式的查询分析过程,成功后固化,一般包含20多个步骤
?? 大规模的连接查询、子查询、联合查询、数据分组与排序、临
时结果集与临时表等
?? 复杂SQL不多,但IO非常大
– 日常数据维护
?? 手工修改记录内容
?? 批量删除
?? 定期维护
DTCC2011DTCC2011
案例需求
?? 关键在查询性能
– 第一个过滤步骤
??筛选字段由用户随机定义,因此无法使用索引
??一般会得到千万级别的结果集
– 大量的多表连接查询
?? 数据装载性能
?? 初始入库48亿条,近1T:限48小时,相当于3万条/s
?? 后续每3天入库一次,9亿条,168G,限10小时内完成
DTCC2011DTCC2011
挑战-核心是性能
DTCC2011DTCC2011
原有产品难以支持分析型应用
?? 只支持行式存储
?? 查询优化器比较简陋
?? 虚拟机实现不尽合理
?? 物理存储设计有待优化
?? 日志系统过于复杂
?? 不能充分利用多机资源提升性能
?? 数据分片技术不完善
于2009年开始新一代产品DM7的研制
DTCC2011DTCC2011
DM系统研制历程
DM1-DM3
1988-
2003
DM4
2004
DM5.6
2007
2009
DM7
2011
1
2
3
5
4
DM6
实验室原型
技术积累阶段
实现各类标准
稳定性及功能
与开源系
统有差距
对DM4-DM6的技
术总结
融合列存储与行
存储
基于向量数据的
执行内核
原生的MVCC
OLAP应用的支
持
持续的技术积累
5.6引入物理操作符,虚拟机
6.0引入高级特性和oracle 兼容特性
DTCC2011DTCC2011
对于性能的理解
优化器
数据/控制权
传递
应用系统的
设计
表达式计算
I/O效率
并发/并行
综合性能
DTCC2011DTCC2011
数据控制权传递-批量技术
– 向量数据处理
– 在数据泵一次传送一批数据
– 减少控制转移的CPU损耗;
– 有利于批量的表达式计算
DTCC2011DTCC2011
传统的数据传递
一次只传递一条记录
每个操作符一次只处理一
行记录
控制权需要反复传递
PROJECT
FILTER
SCAN
1 1 1 …
DTCC2011DTCC2011
向量式的数据传递
减少控制权限的反复传递
提升CPU的有效利用率
便于表达式批量计算
PROJECT
FILTER
SCAN
1
1
…
2
2
…
…
…
…
N
N
…
DTCC2011DTCC2011
批量技术-数据入库
– 将系统的初始数据入库
– 原有BCP接口达到5000条/s,仍无法满足要求
– 改进:
?? 在服务器端实现批量,减少执行流程中的控制跳转
?? 效率提升8倍
DTCC2011DTCC2011
批量技术-全表更新
普通批量
绑定
计划生成
单趟扫描一个ID进行
更新,执行20万次
针对大表更
新的特定的
批量绑定消
息
生成特定计
划,减少执
行流程
ID进行排序,单趟扫描20
万个ID并进行更新
性能提升100倍以上
您可能关注的文档
- 【WIKI MBA智库】马斯洛的需求层次理论.doc
- 第期全球CEO年度调研 - 医药及生命科学行业的主要发现.doc
- 浅析中小学教育信息化工作中存在的主要问题及改进策略解析.doc
- ps水龙头制作流水特效.doc
- 兰本达:科学工作中的发现.doc
- 大学生学业自我效能感提升研究.doc
- 新课程背景下河南省农村中小学音乐教育现状调查分析.doc
- 分数的基本性质台儿庄孙井华.doc
- 微电影植入广告合同.doc
- 电影中植入式广告的营销模式 字 投稿:魏鐸鐹.doc
- 【港交所-2025研报】结好控股 2025年报.pdf
- 2025年学习教育“回头看”情况汇报.docx
- 2025年狠刹吃喝风回头看工作进展情况报告.+2025年党风廉政建设工作要点.docx
- 2025年城区公共交通运行管理工作情况调研报告+城区停车管理专题调研报告.docx
- 2025年深入学习教育进展情况报告 精神学习教育情况报告.docx
- 2025年学习教育进展汇报+党委集中整治进度情况报告+参加精神学习教育参学单位有关情况的调研报告.docx
- 2024年落实意识形态工作责任制情况报告+国企2025年上半年落实意识形态工作责任制情况自查报告.docx
- 2025中国短剧行业发展现状商业模式及出海市场分析报告.docx
- 2025年电源管理芯片产业分析报告-与非网.docx
- 钢筋 套筒 送检.xls
最近下载
- 八项规定回头看自查报告.pdf VIP
- 2012北京 第一册市政道路、桥梁工程预算定额.pdf VIP
- 华为LTC流程IPD流程ITR流程三大核心流程变革一篇文章就全明白啦V2.0!.pdf VIP
- 普洱哈尼族彝族自治县2025年数学五年级第二学期期末学业质量监测试题含答案.doc VIP
- D-ZD2010发电厂汽水管道支吊架设计手册制造图册-中国电力规划.pdf VIP
- 产科急救应急预案.docx VIP
- 关于社区卫生服务中心五年发展规划十五五发展规划2025.docx VIP
- NBT 25085-2018 核电厂常规岛焊接技术规程.pdf VIP
- 烟草代办合同范本6篇.docx VIP
- 危险废物污染防治责任制度.docx VIP
文档评论(0)