核电行业实时ETL系统的设计与实现.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
核电行业实时ETL系统的设计与实现   摘 要 本文以核电企业的数据仓库需求为切入点,为了满足决策支持类应用对数据及时性的要求,提出了一种具有数据缓存机制的实时数据仓库ETL架构,该架构能够均衡系统开销,在突发大数据量的情况下保持决策支持类应用的高服务质量(QoS)。该ETL架构已基于Informatica产品开发实现,其合理性与有效性得到了验证。   【关键词】实时数据仓库 ETL 数据缓存   1 引言   随着我国核电信息化水平的提高,核电企业已经进入到流程特征量化、绩效驱动、以信息技术为依托的发展阶段。数据仓库是管理信息并分析利用的最有效的方式,可为核电企业进行各级流程的绩效评估,改善决策过程,并便于同行对标。   通常,ETL过程是以“脱机”方式执行的。数据以批传输的方式从源中抽取,进行转换,清洗,再加载到数据仓库。这一组活动会在一个专用的时间窗口中执行,通常是在夜间,以防给源系统带来过大的工作负荷。然而,核电企业的部分应用对数据仓库中数据的及时性有很强的要求,例如缺陷预警、辐射防护、运行数据分析等领域的OLAP、数据挖掘、可视化报表等应用,它们可能只能接受分钟级甚至秒级的数据延迟。单纯靠提高ETL更新频率来满足这类需求是不可行的,因为频繁批传输会给源系统或数据仓库带来过大的系统开销,而且随着数据量的增大,批传输将会无法在更新间隔内做完。   在此情况下,有必要引入实时ETL。可将源数据分类为两组。第一组使用快速,高选择性,非阻塞的ETL,使该部分数据近乎实时的更新,以便快速、实时的支持决策过程。其余的源数据可以在夜间进行统一的批传输更新。   另外,核电行业对信息系统的服务质量(包括可用性、数据及时度、吞吐量、查询响应时间等)有着更高的要求,在设计实时ETL系统的过程中,必须考虑大数据量和大系统开销的情形,保持源系统和决策支持类系统的高服务质量。   2 实时数据仓库的ETL架构   本文提出的实时数据仓库ETL架构由以下元素组成:   (1)数据源,产生数据的系统,这些数据会填充到数据仓库;   (2)位于中间的数据处理区域(Data Processing Area, DPA),对产生的数据进行清洗和转换;   (3)数据仓库(DW)。该架构如图1所示。   每个源可以认为是由一个数据存储体(常规数据库、文件等)和一个业务数据管理系统(DBMS、某应用程序)组成。发生在源端的变化首先会被识别是否与ETL过程相关,随后会向数据仓库传输。每个源都设有一个源数据流监控器(SFlowR)模块,负责识别相关的变化,并定期或以适当的间隔将变化向数据仓库传输。   数据处理数据流监控器(DPFlowR)模块负责决定由哪个源发送数据,一旦源发送数据,数据处理区域中的工作流会接收它,这些工作流清洗数据并按数据仓库的格式转换数据。数据处理区域还可以有多种职能:   (1)兼顾SFlowR职能,减轻源的负荷;   (2)也可承担数据仓库数据流监控器(WFlowR)的职能(在数据仓库无法处理源产生的数据流量的情形);   (3)可以执行诸如检查点、准备汇总和QoS管理等任务。传入数据也可以暂存到适当的暂存模块,以使DPA能满足所有工作流的吞吐量。   一旦所有转换流程结束,数据可向数据仓库中装载。WFlowR根据终端用户提交查询的工作负荷,以及对数据及时度、吞吐量、查询响应时间等QoS的要求,将DPA的?稻荼嗯挪⒋?送到数据仓库。   数据仓库(DW)由不同类型的元素构成:   (1)事实表(Fact),包含用户主要关注的现实中事件或事实的记录,   (2)维度表(DIM),包含解释事实不同方面信息的参考记录,   (3)各种类型的索引(INDX),用来加快查询处理的速度,   (4)物化视图,包含最终提交给用户的汇总信息。物化视图允许抽取各类计算过一次的汇总信息,加以存储,以便进行检索、查询和定期更新,并反映一个或多个事实表的当前状态。   在理想状况下,源,数据处理区和数据仓库都能够在给定的时间窗内处理所有的数据。由于许多可能的原因,如用户查询频率高,更新频率高,转换和清洗阶段某些部分的开销大,甚至是运行过程中架构内某部分出现故障,使其在实际情况中不成立。于是,在实时ETL的情况下,为确保服务质量,上述组件需要带有辅助结构,来缓解数据频繁刷新的工作负荷。为此,实时ETL架构中增加了数据暂存节点。这些节点保留部分的传输数据,以备后处理。故数据流监控器中需要有一个简单的选择机制来决定哪些数据要实时的被ETL工作流处理,哪些会进入数据暂存,使其在数据仓库的空闲期处理。   出于这些考虑,设计了一个工作在脱机模式下的补偿模式。规划了数据暂存中的数据被处理并载入数据仓库的过程。如图2所示。

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档