- 34
- 0
- 约2.72千字
- 约 6页
- 2017-06-13 发布于湖北
- 举报
使用ApacheSpark实现ETL300%的速度提升精要
使用Apache Spark实现ETL 300%的速度提升当技术团队开始将现有系统和EDH(企业数据中心)集群拼接在一起时,通常会采用以下常见的设计模式:将文件转储(通常为CSV格式)定期上传到EDH中,接着进行解压缩,转换为最佳查询格式,然后隐藏在HDFS中,在这里各种EDH组件都可以使用它们。当这些文件转储很大或很经常出现时,这些简单的步骤可能会显著减慢数据撷取管道的速度。这种延迟的一部分是不可避免的;由于物理限制因素,跨网络移动大文件是非常耗时的一件工作,并且提升其速度是非常困难的。然而,上述的其他基本数据摄取工作流程通常可以进一步改进。在这里我们向大家展示一个EDH中文件处理的简单使用案例:在hdfs:///user/example/zip_dir/ 中存在一个CSV文件目录,但是该文件目录已压缩为原始 *.zip文件。为了使它们可用,需要将它们提取并合并成单个文本文件,该文件将放在hdfs:///user/example/quoteTable_csv/中。由于这些都是CSV文件,我们假设每个CSV文件在其第一行都有一个简单的标题。执行此操作的一个常用方法是:在EDH的“边缘节点”上执行一条类似于下面详述的脚本程序 - 该“边缘节点”是集群中的一个节点,其具有所有必需的配置文件和应用程序库,以便与集群的其余部分进行交互。有关我们用于这些案例的边缘节点和集群的详细信息,请参见
原创力文档

文档评论(0)