PB级数据仓库性能调优指南.docx

? ? PB级数据仓库性能调优 ? ? 【摘要】 众所周知,数据量大了之后,性能是大家关注的一点,所以我们在业务开发的时候,特别关注性能,做为一个架构师,必须对性能要了解,要懂。才能设计出高性能的业务系统。 一、GaussDB分布式架构 所谓集群是将多台物理服务器组建成一个逻辑平台,对外展现一个集群平台的形式。 所谓分布式架构是将数据分而治之。以逻辑进行划分,将数据存放在不同的物理节点。 CN:协调节点 负责接收来自应用的访问请求,并向客户端返回执行结果。Coordinator负责分解任务,并调度任务分片在DataNode上并行执行。 CN:SQL语句的解析和任务规划,把具体的任务下发给DN结构 GTM:生成和维护全局事务ID、事务快照、时间戳等需要全局唯一的信息。 DN:数据节点,负责存储业务数据(支持行存、列存、混合存储)、执行数据查询任务以及向Coordinator返回执行结果。【不单存储还负责计算】 一台物理机【2-4个DN】 Coorinator做任务的规划 分发,规划完之后,把具体的任务抛给计算节点。 Crew3 Worker1和Crew3 Worker2就是任务树中的叶节点就是数据的扫描任务,接受下级任务的数据输入,向上级任务输出数据。 Crew2 Worker1和Crew2 Worker2中间的节点就是各种数据运算任务,如Hash计算,Join操作,聚集操作和排序

文档评论(0)

1亿VIP精品文档

相关文档