数据仓库运行监视及性能优化探究.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库运行监视及性能优化探究

数据仓库运行监视及性能优化探究摘要:数据仓库的初始建立只是数据仓库项目的开始,其后的更新维护和优化需要投入大量的工作。数据仓库运行过程中需要监视系统的运行状态,需要对数据仓库进行维护和优化。本文对数据仓库的运行监视及性能优化进行了研究。 关键词:数据仓库;运行监视;性能优化 中图分类号:TP311.13 文献标识码:A文章编号:1007-9599 (2012) 07-0000-02 数据仓库系统在规划、设计完成之后,要将数据仓库投入运行,为上层的决策提供数据,即将开发好的数据仓库的各个组件的运行系统组装起来,从数据源将数据加载到数据仓库中,然后在其上开发数据仓库应用。 一、数据仓库的运行监视 数据仓库,尤其是大型的数据仓库,是一个庞大复杂的系统。数据仓库管理员(DWA)在管理过程中经常会感到很困惑,很难跟踪到整个系统的各个方面。DWA急需一个稳定可靠的跟踪系统,使其能够很方便地跟踪、监控整个数据仓库系统的运行情况。同时,系统应该结合电子邮件和网站,使之成为一个集成的环境。DWA应该关心数据仓库系统各方面的特性,这通常可以通过观察它的ETL过程来确定。下面是一些DWA可能关心的跟踪节点,由于实际情况的差异,这些节点可以根据实际情况进行增删。 (一)日志文件 ETL和其他一些应用程序是数据仓库的基础,通常它们被用来组织成批作业,在夜间相对空闻时运行。ETL日志文件反映了程序的运行状况,判别程序是否出错可以通过特别的字符串来进行,或者可以通过查找某些关键字/词来发现。例如,根据经验,SAS ETL程序中有两类错误被认为是严重的错误,必须加以重视,它们是“…Because of errors”和“…was stopped”。因此可以通过读取和分析日志文件发现其中的问题。 (二)ETL数据 买际上从ETL日志文件中还可以得到ETL抽取源数据的一些指标,如响应时间和数据量。DWA可以通过跟踪下载字节数和抽取速度来了解ETL的性版并以此作为作业编排和数据仓库扩充的依据。 (三)应用服务器监视 在数据仓库中会用到一些应用服务器,如SAS/Share服务器、SAS/Internet服务器等,它们在系统启动时就自动启动了,但有时它们也会由于某些原因而停止运行。在Unix系统中,通过检查系统的进程,可以判别这些应用服务器的活动状况。同时,如果需要,这些应用服务器的日志文件也可以用做进一步的分析。 (四)硬盘空间 DWA需要清楚地知道磁盘空间的使用情况,包括磁盘空间的空余和数据增长情况。例如,在Unix系统中,“df-k”命令可以列出所有文件系统当前的使用情况。通过定期记录这些数据,DWA就可以分析出磁盘的使用情况,尤其是数据的增长情况。 (五)其他 还有其他许多方面是DWA所关心的,如派系统(即操作型系统)的状态、用户访问和权限跟踪等。对待殊的系统,就必须考虑这些特别的跟踪点。 跟踪系统实际上是数据仓库系统的一个重要组成部分,是数据仓库管理员和系统维护人员进行系统跟踪与维护的有力手段之一。另外,可以利用跟踪的结果作为数据仓库性能优化和调整的依据。 数据仓库的性能优化有两个方面的内容:一方面是数据仓库数据处理程序的优化;另一方面是应用程序的性能优化。 二、数据处理程序调度优化 数据仓库系统中的数据处理程序很多,包括数据管理程序(如数据抽取程序、更新程序、归档程序)、数据集市以及数据立方生成程序、报表生成程序等。这些程序的执行一般是在夜间以批处理的方式进行的,但是对于大型企业级数据仓库来说,数据处理程序非常多。如果不能在指定的时间段完成,就会影响前端分析的及时性。另外,基于数据仓库的应用在不断地增加。因而,需要合理地调度数据仓库中任务的执行,提高系统的数据处理能力。 数据仓库系统巾的任务之间具有复杂的先后关系,构成了一张任务工作流图,只靠数据仓库管理员的手工调度是不行的。因此,需要使用工作流技术管理和调度数据仓库中的任务。一般情况下,数据仓库服务器大都采用服务器、小型机或并行机,有多个CPU。因此,可以使用多线程改多进程技术,使得任务在多个CPU上并行执行。这样,需要任务调度程序按照任务间的关系,合理地分派任务在不同的CPU上运行。 三、前端应用性能优化 提高数据仓库系统前端应用性能的方法有多种,如归档休眠数据、去规范化设计、预计算、列复制、预连接、建立索引等方法。 (一)归档休眠数据 所谓休眠数据是指长时间不用的数据。这种数据的粒度不同,可能是某个数据集很长时间末被使用,或者数据集中的某些属性一直未被使用,或者数据集中的某些元组或值一直未被使用。大量的数据是最主要的性能障碍。数据仓库管理员用来提高数据仓库性能

文档评论(0)

linsspace + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档