kettle的并行,集群和分区.docxVIP

  • 36
  • 0
  • 约1.49万字
  • 约 27页
  • 2017-08-31 发布于重庆
  • 举报
kettle的并行,集群和分区

kettle的并行,集群和分区January 4th, 2011 by ahuooLeave a reply ?当你有很多数据要处理的时候,能够有效地使用所有的计算资源是非常重要的。不管是台个人电脑,还是有数百台服务器,你都想让Kettle能尽可能的使用所有可用的计算资源,并在可接受的时间范围内获取执行结果。在这一章节,我们将解开kettle的转换和作业在垂直扩展和水平扩展方面的秘密。垂直扩展是尽可能的使用单台服务器上的多CPU核。水平扩展是使用多台机器资源,使他们并行计算。这两种方法都是ETL子系统的一部分(#31,并行/流水线系统)。章节的第一部分先谈谈转换内部的并行机制和多种使用其进行垂直扩展的方法。然后我们讲解怎样在子服务器集群环境下进行水平扩展转换。最后我们讲讲kettle分区的一些具体细节,利用分区进一步提升并行计算的性能。一、多线程在章节2中,我们已经了解了转换的基本组成部分是步骤,而且每个步骤是并行执行的。现在我们将更深入这一话题,解释kettle的多线程能力怎样使你更充分利用机器所有的计算资源,垂直扩展一个转换。默认情况下,转换中的每一个步骤都是在单一隔离的线程里面并行的执行。但可以为任何单一的步骤增加线程的数目,也可叫做复制。在15章里我们也解释过,这种办法能够提高那些CPU时间消耗量大的转换步骤的性能。[*1]让我们看一个简单的例子,如图16-1,其中所有数据

文档评论(0)

1亿VIP精品文档

相关文档