Hadoop 面试中 6 个常见的问题及答案.pdf

下载文档

0
0
约5.67千字
约 8页
2017-07-27 发布于湖北
举报
版权申诉
保障服务

Hadoop 面试中 6 个常见的问题及答案.pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop 面试中 6 个常见的问题及答案

Hadoop 面试中 6 个常见的问题及答案你准备好面试了吗？呀，需要 Hadoop的知识！！？不要慌！这里有一些可能会问到的问题以及你应该给出的答案。 Q1.什么是 Hadoop？ Hadoop是一个开源软件框架，用于存储大量数据，并发处理/查询在具有多个商用硬件（即低成本硬件）节点的集群上的那些数据。总之，Hadoop包括以下内容： HDFS （Hadoop Distributed File System ，Hadoop分布式文件系统）：HDFS允许你以一种分布式和冗余的方式存储大量数据。例如，1GB （即 1024 MB ）文本文件可以拆分为 16 * 128MB文件，并存储在 Hadoop集群中的 8个不同节点上。每个分裂可以复制 3次，以实现容错，以便如果 1个节点故障的话，也有备份。HDFS适用于顺序的 “一次写入、多次读取”的类型访问。 MapReduce ：一个计算框架。它以分布式和并行的方式处理大量的数据。当你对所有年龄18 的用户在上述 1GB文件上执行查询时，将会有 “8个映射”函数并行运行，以在其 128 MB拆分文件中提取年龄18 的用户，然后 “reduce”函数将运行以将所有单独的输出组合成单个最终结果。 YARN （Yet Another Resource Nagotiator ，又一资源定位器）：用于作业调度和集群资源管理的框架。 Hadoop生态系统，拥有 15多种框架和工具，如 Sqoop ，Flume ，Kafka ，Pig ，Hive ， Spark ，Impala等，以便将数据摄入 HDFS ，在 HDFS 中转移数据（即变换，丰富，聚合等），并查询来自 HDFS 的数据用于商业智能和分析。某些工具（如 Pig和 Hive ）是 MapReduce 上的抽象层，而 Spark和 Impala等其他工具则是来自 MapReduce 的改进架构/设计，用于显著提高的延迟以支持近实时（即 NRT ）和实时处理。 Q2.为什么组织从传统的数据仓库工具转移到基于 Hadoop生态系统的智能数据中心？ Hadoop组织正在从以下几个方面提高自己的能力：现有数据基础设施：主要使用存储在高端和昂贵硬件中的“structured data，结构化数据” 主要处理为ETL批处理作业，用于将数据提取到RDBMS 和数据仓库系统中进行数据挖掘，分析和报告，以进行关键业务决策。主要处理以千兆字节到兆字节为单位的数据量基于 Hadoop 的更智能的数据基础设施，其中结构化（例如RDBMS），非结构化（例如images，PDF，docs ）和半结构化（例如logs， XMLs）的数据可以以可扩展和容错的方式存储在较便宜的商品机器中。可以通过批处理作业和近实时（即，NRT，200 毫秒至2 秒）流（例如Flume 和Kafka）来摄取数据。数据可以使用诸如Spark 和Impala 之类的工具以低延迟（即低于100 毫秒）的能力查询。可以存储以兆兆字节到千兆字节为单位的较大数据量。这使得组织能够使用更强大的工具来做出更好的业务决策，这些更强大的工具用于获取数据，转移存储的数据（例如聚合，丰富，变换等），以及使用低延迟的报告功能和商业智能。 Q3.更智能更大的数据中心架构与传统的数据仓库架构有何不同？传统的企业数据仓库架构基于 Hadoop的数据中心架构 Q4.基于 Hadoop 的数据中心的好处是什么？随着数据量和复杂性的增加，提高了整体 SLA（即服务水平协议）。例如，“Shared Nothing” 架构，并行处理，内存密集型处理框架，如 Spark和 Impala ，以及 YARN容量调度程序中的资源抢占。缩放数据仓库可能会很昂贵。添加额外的高端硬件容量以及获取数据仓库工具的许可证可能会显著增加成本。基于 Hadoop的解决方案不仅在商品硬件节点和开源工具方面更便宜，而且还可以通过将数据转换卸载到 Hadoop工具（如 Spark和 Impala ）来补足数据仓库解决方案，从而更高效地并行处理大数据。这也将释放数据仓库资源。探索新的渠道和线索。Hadoop可以为数据科学家提供探索性的沙盒，以从社交媒体，日志文件，电子邮件等地方发现潜在的有价值的数据，这些数据通常在数据仓库中不可得。更好的灵活性。通常业务需求的改变，也需要对架构和报告进行更