- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
并行处理技术在集群负载均衡ETL计算环境中的应用研究.
并行处理技术在负载均衡ETL计算环境中的应用研究
摘要:本文以基金行业项目为背景,针对ETL执行过程中的性能问题,提出一种结合并行处理和集群负载均衡实现技术提高ETL处理性能的解决方案。实践证明该技术解决方案是可靠和有效的。
关键词 ETL,集群,负载均衡,并行处理
An Application Study for Parallel Processing Techniques
in Cluster Load Balance ETL Calculating Environment
Abstract A technique solution scheme combining cluster load balance implementation technique with parallel processing has been presented to enhance ETL processing performances in this paper for the performance problem in ETL processing background of the fund industry project. The practice proves the technique solution sheme is reliable and effective.
Key word ETL, Cluster, Load balance, Parallel processing
引言
随着基金公司业务的不断扩大,新的基金产品不断发行、衍生品种类繁多,基金投资规模也不断增加。在大量沉淀的基金产品销售数据中进行挖掘,以发现诸如关联、连续和购买者分类的购买模式,基此实现预测、识别、分类和优化的分析[1]是目前智能业务(business intelligence)的核心内容。
数据抽取,转换和装载 (Extraction Transformation Loading,ETL)技术是实现海量数据分类聚合,集成和共享的重要技术手段,也是形成数据仓库和进行数据挖掘与分析的基础。[2]
本文针对ETL过程的执行性能,特别是其在负载均衡计算环境中的执行性能展开了相关技术研究。本文基于ETL的基本理论,进一步提出并行技术在负载均衡ETL计算环境中的重要性及其基本实现方法。
ETL技术应用
ETL是构建数据仓库的重要环节[2]。结合本文业务领域背景,简介描述ETL技术的相关应用如下:
1)数据抽取。根据装载数据抽取结果到目标数据库(如数据仓库)的影响度,一般可以分为增量式更新和全量更新的数据抽取方式。可以根据实际需求选择相应的数据抽取方式,本文考虑到外部行情数据变化频繁,故采用全量更新的方式进行数据抽取,对股票、债券等数据则根据源系统中的交易时间标识来抽取那些己经被改变的记录(如新增,修改,删除)。
2)数据转换。现实中数据极易受噪声、缺损和不一致数据的影响。特别当数据量大且大多来自异构数据源时,噪声影响越发严重。因此在数据装载到数据仓库前要对抽取的数据进行预处理。基金行业的资产估值表涉及各个银行对基金相关费用的估算,各个银行的科目编号不统一,因此部分数据在装载到数据仓库前需要按照本公司的财务科目编号规则进行数据转换。
3)数据加载。把预处理后的数据加载到目标数据仓库中,可以采用SQL语句完成装载。
并行处理过程
并行处理的思想就是将单个任务分解为多个更小的单元如何单个任务成更小的单元
3.1 集群与负载均衡
集群(cluster)就是一组计算机,它们作为一个整体向用户提供一组网络资源。计算机系统是集群的节点。一个集群用户不会意识到集群系统底层的节点集群系统的管理员可以随意增删改集群系统的节点
集群务集群地址集群由多个服务实体组成,集群客户端通过访问集群的集群地址获取集群内部各服务实体的功能。具有单一集群地址是集群的一个基本特征。维护集群地址的设置被称为负载均衡器。负载均衡器内部负责管理各个服务实体的加入和退出,外部负责集群地址向内部服务实体地址的转换。有的负载均衡器实现真正的负载均衡算法,有的只支持任务的转换。内部通信为了能协同工作、实现负载均衡和错误恢复,集群各实体间必须时常通信,比如负载均衡器对服务实体心跳测试信息、服务实体间任务执行上下文信息的通信。
本文采用多线程方式实现多任务调度,每个任务既可以是独立的线程,也可以根据相互依赖关系设置线程执行的先后次序,采用串行与并行结合的方式进行数据采集。表1为资产估值表,由于各银行科目编码不统一,需要以本公司财务科目编码规则对源资产估值信息进行转换,转换过程采用如图1所示的多线程进行处理,如基金A的资产估值信息可以作为一个独立的线程进行数据转换。
表1 资产估值表
您可能关注的文档
最近下载
- 湖北省总工会考试试题及答案.doc VIP
- 住院医师规范化培训-医学检验真题库_25.docx VIP
- 房贷提前还清协议书.docx VIP
- 公司治理教学课件(完整版).ppt VIP
- 青光眼小梁切除术.ppt VIP
- 药物设计软件:Discovery Studio二次开发all.docx VIP
- 2025年郑州澍青医学高等专科学校单招语文测试模拟题库汇编.docx VIP
- GTBO41100-2017B 项目运营手册成本弦.pdf VIP
- 2024-2025学年初中道德与法治七年级上册(2024)统编版(部编版)(2024)教学设计合集.docx
- 2025卫星互联网承载网技术白皮书.docx VIP
文档评论(0)