- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多数据库系统数据仓库集成技术应用研究.doc
多数据库系统数据仓库集成技术应用研究
1.绪论
1.1研究背景
针对基于集中式数据仓库环境的相关课题研究相对较多,综合政策、经济、技术等诸多因素,在实际应用中也更倾向于集中式数据仓库环境。然而在信息增长迅猛的今天,数据呈现出海量式和分布式的特点,这使得集中式数据仓库在数据分析处理能力方面越来越有局限性。基于分布式数据仓库具有维护成本低、数据整合性强、高容错力、高效性和存储空间几乎不受限的特点,分布式数据仓库环境针对一些特殊情况(如业务数据分布于不同物理节点)更具优势,典型的例子有银行和电子商务平台。课题是基于SaaS模式,面向小微企业用户的进销存管理平台。由于平台中的企业用户之间相互独立但业务模式相同,因此平台为企业各自创建独立的表空间且表空间中对应的业务表结构相同。为满足平台和企业两级不同的数据分析需求,需要创建数据仓库作为分析的基础。企业级的经营分析面向企业内部,分析主题相对多样化且分析粒度相对较低;平台级经营分析是面向平台中的所有注册企业,分析主题主要面向销售且分析粒度相对较高。集中式的数据仓库己无法满足此类平台的应用需求,因此对分布式数据仓库环境下的二级数据仓库及其相关技术进行研究具有重要意义。
.
1.2国内外研究现状
近两年来基于分布式数据仓库所釆用的相关技术主要是利用ffive搭建数据仓库⑴。但由于Hadoop目前未提供分析工具,因此在应用中实现分析结果可视化稍显不便。采用数据库技术可结合较成熟的开源多维分析、展示工具(如Mondrian和JPivot),避免在应用展示层进行复杂的开发工作。特别的,针对典型的分布式数据仓库形式(包含全局数据仓库和分布于各节点的局部数据仓库)一一两级数据仓库结构的相关研究成果主要包括:熊中阳提出使用多级数据仓库体系结构结合双通道算法避免数据不一致问题;叶政提出了针对服饰行业销售决策支持系统的分布式数据仓库模型[3],给出实现局部数据仓库向全局数据数据仓库传输数据的技术方案,但并没有给出两级数据仓库间数据传输的具体策略、时间效率及正确性分析。结合课题应用背景,为便于理解,将上述全局数据仓库对应称为平台级数据仓库,局部数据仓库对应称为企业级数据仓库。企业级数据仓库向平台级数据仓库进行数据更新的策略大致可以分为两种:一是由平台级数据仓库主动从企业级数据仓库中提取数据;二是由企业级数据仓库完成数据更新后向平台级数据仓库推送数据。两种策略均涉及到跨数据库服务器间的数据交互。策略一的特点是由平台级数据仓库根据特定条件来决定下级企业仓库数据传输的优先级,各数据更新任务间几乎不会有冲突,理论上数据丢失概率相对较小,杨一平提出利用定时轮循更新的策略解决分布式数据仓库调度中存在的灵活性差、实时性弱、职能化程度低等问题[4]。但此方法的弊端是各级数据仓库需额外维护用于更新通知的视图表同时增加了两级数据仓库间的通信量。类似可参考相关研究中提出的封锁协议和算法调度策略二的特点是:在各企业级数据仓库并发地从各自业务数据库中抽取数据的条件下,更新完毕后即刻向平台级数据仓库推送,连贯性强、网络通信频率低且并发度也相对较高,但不利因素是极容易造成各更新任务间的冲突,刘培玉从数据存储的角度提出了解决冲突问题的思路[8]。
..
2.相关理论与技术研究
2.1数据仓库
相比于保存当前业务数据并以满足事务处理为目标的数据库,数据仓库是存储面向决策支持和用于联机分析的所有类型数据的集合,也可以将其看做是商业智能(Business Intelligence,BI)的基础。它的主要特点可概括如下:主要面向历史数据且用于决策分析、数据仓库中是大量数据的集合且具有整合性、对数据仓库的操作需根据当时的决策需求确定、存储的数据需永久保存根据上述特点可知,对于数据仓库的构建方法将不同于数据库的建立。由于数据仓库中的数据主要来自于多个业务数据库,且作为商业智能分析的基础,它要同时保存当前数据和历史数据。随着历史数据的积累后续的数据分析也会更有价值,对于所有存储的数据必须永久保存。因此在面对海量的且具有整合性的数据时,需要考虑数据仓库的存储容量和可扩展性。由于对数据仓库的操作具有不确定性,也决定了构建数据仓库时多采用增量式方法。分布式数据仓库通过网络将不同物理节点进行连接,进而从逻辑上达到数据集成共享的效果。由于该结构可利用网络解决信息孤岛问题且可对用户随时提供访问接口而不影响原有访问,因此对于业务数据分布在不同物理节点、需要对所有物理节点上的数据进行全局应用分析的平台更适宜釆用分布式结构。根据数据管理系统的异同又可将分布式数据仓库划分为异构型分布式数据仓库和同构型分布式数据仓库。
.
2.2数据库链接
数据库链接(Database Link, DELINK)可以理解为在分布式数据库应用环境中两台数据库服务器之间的通信桥梁,是远程数据库
您可能关注的文档
最近下载
- 某实验室装修工程投标文件—技术标.docx VIP
- Unit 6 A Day in the Life 单元检测(含答案) 人教版(2024)英语七年级上册.docx VIP
- B级法兰锻制-作业指导书生产用设备操作与维护规程汇编.doc VIP
- T_ZJAF 13.1-2023 公共视频资源 第1部分:总则.docx VIP
- 第四课 用联系的观点看问题(精品课件)-【中职专用】高二思想政治《哲学与人生》同步精品课堂(高教版2023·基础模块).pptx VIP
- 2025年高考政治真题试卷(新课标卷)+解析及答案001.docx VIP
- 2022年职业教育国家级教学成果奖申报书.pdf VIP
- 《吸入装置使用》课件.pptx VIP
- 患者隐私保护与信息安全培训.pptx VIP
- IT运维管理制度流程图.pdf VIP
文档评论(0)