使用ApacheSpark实现ETL300%的速度提升精要.docxVIP

下载本文档

34
0
约2.72千字
约 6页
2017-06-13 发布于湖北
举报

使用ApacheSpark实现ETL300%的速度提升精要.docx

使用ApacheSpark实现ETL300%的速度提升精要

使用Apache Spark实现ETL 300％的速度提升当技术团队开始将现有系统和EDH（企业数据中心）集群拼接在一起时，通常会采用以下常见的设计模式：将文件转储（通常为CSV格式）定期上传到EDH中，接着进行解压缩，转换为最佳查询格式，然后隐藏在HDFS中，在这里各种EDH组件都可以使用它们。当这些文件转储很大或很经常出现时，这些简单的步骤可能会显著减慢数据撷取管道的速度。这种延迟的一部分是不可避免的；由于物理限制因素，跨网络移动大文件是非常耗时的一件工作，并且提升其速度是非常困难的。然而，上述的其他基本数据摄取工作流程通常可以进一步改进。在这里我们向大家展示一个EDH中文件处理的简单使用案例：在hdfs:///user/example/zip_dir/ 中存在一个CSV文件目录，但是该文件目录已压缩为原始 *.zip文件。为了使它们可用，需要将它们提取并合并成单个文本文件，该文件将放在hdfs:///user/example/quoteTable_csv/中。由于这些都是CSV文件，我们假设每个CSV文件在其第一行都有一个简单的标题。执行此操作的一个常用方法是：在EDH的“边缘节点”上执行一条类似于下面详述的脚本程序 - 该“边缘节点”是集群中的一个节点，其具有所有必需的配置文件和应用程序库，以便与集群的其余部分进行交互。有关我们用于这些案例的边缘节点和集群的详细信息，请参见

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

使用ApacheSpark实现ETL300%的速度提升精要.docxVIP