基于关系并行数据仓库数据划分和操作.docVIP

基于关系并行数据仓库数据划分和操作.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关系并行数据仓库数据划分和操作

基于关系并行数据仓库数据划分和操作   (华东理工大学 计算机系, 上海 200237)   摘 要:目前并行数据库的研究已经进入了实际应用阶段,而数据仓库的大数据量处理更需要并行处理能力的支持。针对数据仓库的特点,提出了一种可操作的并行化数据划分方法和物理存储方案,同时对基于该种数据存储的数据操作做了详细的讨论,并对各种Join操作的具体处理方法进行了归类论述。??   关键词: 并行数据操作; 数据仓库; 数据划分; Join操作??   中图法分类号: TP311.13文献标识码: A   文章编号: 1001 3695(2006)08 0212 04   ??   Data Placement and Operation of Relation based Parallel Data Warehouse ??      LV Cheng, JIN Deng nan   (Dept. of Computer, East China University of Science Technology, Shanghai 200237, China)   Abstract: Parallelize has already been used in DBMS, and is more useful in data warehouse which must handle the massive data processing. The paper gives operable parallel ways for data placement and store in data warehouse environment, and also discuss the data operation based this physical structure, especially the parallel implementing methods of Join operation. ??   Key words: Parallel Data Processing; Data Warehouse; Data Placement; Join Processing    ?お?   1 引言??      20世纪70~80年代,国外不少工作者潜心研究数据库机器[1],其中很重要的一点就是致力于实现数据操作并行化的专用硬件的设计。由于种种原因,数据库机器最终没有进入实用阶段,但却为数据库系统的发展指明了方向。随着通用并行计算机系统的发展和成熟,并行数据库的研究取得了极大的进展,并已成为并行计算机研究的主要应用之一。目前各大主流的商用数据库产品都成功地增加了并行处理能力,如Oracle公司的OPS(Oracle Parallel Server)、Informix公司的On line Dynamic Server和Sybase公司的VSA(Virtual Server Architecture)等。虽然这些产品大都还是在原有系统的基础上进行的并行化改进,但这足以说明并行技术的运用是目前高性能数据处理的必由之路。??   数据仓库的自身特点决定了对大规模数据进行有效的管理和操作是技术层面的核心所在。目前世界上大型的数据仓库系统(如WalMart,SBC)的数据量已接近200TB,所以数据仓库的应用对并行化技术提出了更高的要求。同时,由于其数据仓库一般专注于OLAP和DSS等类型的操作,因此可以在体系结构上作具有针对性的优化或简化。??   尽管现在主流的数据仓库解决工具提供了新的数据模型解决方案,如星型、立方体模型等,它们对特定的OLAP应用确实起到了很好的效果,但是如果以数据仓库作为企业信息系统的基础,绝对是一个适合于使用规范化方法的领域[2]。而其他模型则可以用于以数据仓库为基础建立主题明确的数据集市。本文以基于关系的数据仓库为对象,在体系结构、数据存储和操作性能方面,在已有方法的基础上提出了可操作的解决方案。??      2 一种基于容错的体系架构   ??   并行数据库系统的研究从一开始就与体系结构密切相关,文献[3]中归纳了四种典型的并行计算机结构:SE(Share Everything),SM(Share Memory),SD(Share Disk),SN(Share Nothing)。1986年,美国学者M.Stonebraker提出SN结构是支持并行数据库系统的最好并行结构[5],它具有共享资源少、系统开销小、加速比高等优点和近乎线形的可扩充性。早期的Ga mma ,Bubba和Tandem均是SN结构的例子,而国内的PARO等并行数据库原型系统也采用该结构。??   图1、图

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档