- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DB2数据仓库集群设计 日程 不同的并行类型 硬件 软件 DB2 DPF 并行架构 数据库分区-Database partitioning 服务器分区-Server partitioning IO 并行 物理数据库设计 分区键-Partitioning keys 对性能和扩展性的影响 应用并行 何时分区? 目标 通过本文介绍,您将能够: 理解不同种类的并行架构 理解DB2 MPP并行架构的原理 理解DB2是如何处理并行SQL的 理解并行机制是怎样影响BI架构设计的 知道何时需要进行数据库分区 了解IBM BCU 从单处理器到大规模并行处理 概念和术语 非共享体系架构-Shared-nothing 软件概念:应用(数据库/ETL等)并行处理单一任务的能力,每个子任务处理一部分数据 大规模并行处理 (MPP) 硬件概念: 一组服务器/节点,通过高速网络通讯,运行非共享应用(数据库、ETL等) 群集 大规模并行计算、各节点共享磁盘子系统;当一个节点宕掉,另一个能访问相同物理磁盘的节点将会接管失效节点的工作负荷。 扩展性 架构扩展能力: 垂直扩展 – 通过增加单节点组件(CPU内存等)来扩展 水平扩展– 通过增加更多的节点来扩展 线性 线性扩展 – 效率指标,增加资源将线性提升性能 DB2 – 非共享体系架构 DB2 数据库拓朴 数据库分区与节点关系 数据库分区与节点关系 I/O 层次 页面-Page 读写的基本单位 扩展块-Extent 分配的基本单位 页面数可定制 能且只能用于存放数据库的一个对象(表、索引) 通常为大的块I/O大小 容器-Container DB2从中分配扩展块 DMS文件 (‘/hello.dat) DMS 裸设备 (/dev/rhello) SMS:目录 (‘/hello’) 表空间-Tablespace 一组容器 总结: 并行 I/O 创建单节点Partition Group create database partition group sdpg on dbpartitionnums(0); create database partition group pdpg on dbpartitionnums(1 TO 8); 创建跨节点表空间 create tablespace ts_demo in database partition group pdpg pagesize 4k managed by database using ( file /database/zhouxzh/tbs_demo $N 20M) extentsize 16 prefetchsize automatic bufferpool bp4k autoresize yes no file system caching; DB2 表定义 –从逻辑到物理 Physical Data Model CREATE TABLE customer ( cust_id INTEGER NOT NULL, tel CHAR(20), zip CHAR(5) NOT NULL, birth_date DATE NOT NULL, PRIMARY KEY(cust_id) DISTRIBUTE BY HASH(cust_id)) COMPRESS YES IN data_tbs; CREATE TABLE sales ( cust_id INTEGER NOT NULL REFERENCES customer(cust_id),? Foreign key (确保存在) sales_date DATE NOT NULL, region CHAR(5) NOT NULL, prod_id INTEGER NOT NULL PRIMARY KEY(cust_id,sales_date)) ? Primary key (确保唯一) DISTRIBUTE BY HASH(cust_id) ? Partitionning key (分散数据) IN data_tbs; CREATE INDEX sales_cust ON sales (cust_id); ? Non unique index (加速查询) 使用哈希(Hashing)和分区位图( Partition Map)自动分布数据 数据分区 –目标 1: 保证数据跨所有分区平均分布 选择分区键 值多的字段 数据分布均匀
文档评论(0)