- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
性能调优方案.doc
性能调优方案
目 录
第一章 调优前的信息收集 3
1.1 系统配置信息 3
1.2 数据库使用情况 4
1.2.1 数据源情况 4
1.2.2 数据库表当前容量 4
1.3 表结构及加载使用情况收集 4
1.4 系统资源使用情况收集 4
1.5 ETL运行情况统计 5
第二章 系统状况分析 7
2.1 PDM物理模型设计分析 7
2.2 资源使用情况分析 8
2.3 ETL大任务分析 8
2.4 ETL调度分析 9
2.4.1 依赖分析 9
2.4.2 源系统数据影响分析 12
第三章 调优方案 14
3.1 多值压缩 14
3.2 Partition 14
3.3 调整PI 16
3.4 收集统计信息 17
3.5 脚本写法优化 17
3.6 效果评估 18
第四章 附录 19
4.1 打开收集系统资源开关 19
4.2 源系统所占空间 19
4.3 PData中大于5G的表 20
4.4 系统资源使用情况 22
4.5 统计日期内ETL作业运行情况 26
4.6 ETL长任务统计 37
4.7 ETL调度情况明细 38
调优前的信息收集
必要的信息收集是进行性能调优的基础,需要搜集的信息包括:
系统当前硬件配置情况。
数据库使用情况信息,包括目前已使用容量,源数据表个数、大小,目标数据表个数、大小,此类信息之数据字典中。
系统资源使用情况:包括CPU、IO的使用情况等,此类信息在系统ResUsage表中。
ETL任务的运行情况,包括脚本运行时间,ETL任务的加载时间窗口,ETL作业并非数等。此类信息在AUTOMATION中有相应记录。
物理模型设计信息,包括PI、PPI、COMPRESS、其他INDEX等。
首先我们将收集有关系统配置情况、源数据情况、数据库容量使用情况等接近于静态的信息;其次我们将以业务日期2008-06-12至2008-06-18的ETL加载作为主要考察对象,其相应的实际加载日期为2008-06-13至2008-06-19,收集这一采样周期内的系统资源使用情况的信息、ETL任务运行时间信息,并抽取了某一天的加载日志,我们将利用这些信息分析目前系统主要的性能问题原因。
系统配置信息
系统自2006年8月27日开始上线运行,总体运行情况基本良好。上线初期系统配置为两个5400H节点,带一个6842磁盘阵列模块,56*73GB磁盘,RAID1后可用空间约为1.7TB。
随着业务和数据量的增长,系统已于2007年10月进行了第一次扩容,首先将原来2个5400H节点升级为5450H,并在当前的6842阵列机柜中增加一个磁盘阵列模块,带28*73GB磁盘;再新增两个5450H节点,带一个6843磁盘阵列模块,84*73GB磁盘;整个系统RAID1后可用空间达到5.4TB。
数据库使用情况
数据源情况
目前上线的作任务所涉及源业务系统共23个,每天的源数据增量约为23GB(数据库中所占空间),各源系统所占空间统计见附录4.2。以2008年5月25日到2008年6月25日一个月的实际数据平均计算得出。
遇结息日核心数据会比平时要大6GB左右,平时约6GB,6月21日结息日为12GB;除此以外,信用卡数据和PA数据在某些日期也会有突变,比如信用卡数据平时约7GB,而2008年5月31日为30GB,2008年6月1日为20GB,2008年6月5日为18GB;其他系统则都比较平稳。
另外,对于EP电子支付系统,因为是4月11日新上线的,数据量每天都在增长,从4月11日的2MB递增到了6月25日的32MB,据称是因为业务量很小,所以取了交易全量的缘故,因为此系统尚未达到一个稳定的状态,所以需对其增长情况予以关注,避免日后数据量过大影响性能。
数据库表当前容量
目前数据库已使用空间与所有可用空间的占比为51%,PDATA中占用空间较大的表(超过5GB)有30张,明细情况见附录4.3。
表结构及加载使用情况收集
采集目前所用的所有表结构及ETL加载脚本,其中主要是PDATA中的表结构,用于分析当前PDM设计及加载脚本是否规范,从而找到优化余地。
系统资源使用情况收集
执行系统命令打开了系统ResUsageSpma的开关。详细情况见附录4.1。
信息收集周期和记录周期均设定为600秒。下图是2008-06-12日ETL加载阶段的资源使用情况,采样周期内其他日期资源使用见附录4.4。
图表说明如下:
图中横坐标代表时间,跨度为ETL加载的时间窗口(0点到15点左右),间隔10分钟,纵坐标代表系统资源使用率情况。
蓝色区域表明系统CPU处于空闲状态,绿色区域表明系统CPU处于工作状态,红色区域表明系统CPU处于WAIT-IO状态,即CPU在等待IO操作的完成。
绿色区域越大,说明系统越繁忙;红色区域高说明现在系统受到I
文档评论(0)