大数据相关术语及概念.docxVIP

  • 22
  • 0
  • 约3.89万字
  • 约 48页
  • 2019-03-17 发布于湖北
  • 举报
PAGE \* MERGEFORMAT8 1 4A Account,Authorization,Authentication,Audit 帐号、授权、认证、审计 BOSS Business Operation Support System 业务运营支撑系统 CRM Customer Relationship Management 客户关系管理 DMZ De-Militarized Zone 非军事化去,即隔离区 ETL Extraction Transformation Loading 抽取、转换和加载 ESOP Enterprise Service Operation Platform 集团客户业务综合运营平台 FTP File Transfer Protocol 文本传输协议 ICMP Internet Control Message Protocol Internet 控制报文协议 NGCC Next Generation Call Center 下一代呼叫中心 SQL Structured Query Language 结构化查询语言 VGOP Value-added Service General Operation Platform 增值业务综合运营平台 Hadoop(MapReduce) Hadoop是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。 Hadoop是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由雅虎的Doug Cutting创建,Hadoop的灵感来自于 MapReduce ,MapReduce是谷歌在2000年代初期开发的用于网页索引的用户定义函数。它被设计用来处理分布在多个并行节点的PB级和EB级数据。 Hadoop集群运行在廉价的商用硬件上,这样硬件扩展就不存在资金压力。Hadoop现在是Apache软件联盟(The Apache Software Foundation)的一个项目,数百名贡献者不断改进其核心技术。基本概念:与将海量数据限定在一台机器运行的方式不同,Hadoop将大数据分成多个部分,这样每个部分都可以被同时处理和分析。 Hadoop如何工作 客户从日志文件、社交媒体供稿和内部数据存储等来源获得非结构化和半结构化数据。它将数据打碎成“部分”,这些“部分”被载入到商用硬件的多个节点组成的文件系统。Hadoop的默认文件存储系统是Hadoop分布式文件系统。文件系统(如HDFS)善于存储大量非结构化和半结构化数据,因为它们不需要将数据组织成关系型的行和列。 各“部分”被复制多次,并加载到文件系统。这样,如果一个节点失效,另一个节点包含失效节点数据的副本。名称节点充当调解人,负责沟通信息:如哪些节点是可用的,某些数据存储在集群的什么地方,以及哪些节点失效。 一旦数据被加载到集群中,它就准备好通过MapReduce 框架进行分析。客户提交一个“匹配”的任务( 通常是用Java编写的查询语句)给到一个被称为作业跟踪器的节点。该作业跟踪器引用名称节点,以确定完成工作需要访问哪些数据,以及所需的数据在集群的存储位置。一旦确定,作业跟踪器向相关节点提交查询。每个节点同时、并行处理,而非将所有数据集中到一个位置处理。这是Hadoop的一个本质特征。 当每个节点处理完指定的作业,它会存储结果。客户通过任务追踪器启动“Reduce”任务。汇总map阶段存储在各个节点上的结果数据,获得原始查询的“答案”,然后将“答案”加载到集群的另一个节点中。客户就可以访问这些可以载入多种分析环境进行分析的结果了。MapReduce 的工作就完成了。 一旦MapReduce 阶段完成,数据科学家和其他人就可以使用高级数据分析技巧对处理后的数据进一步分析。也可以对这些数据建模,将数据从Hadoop集群转移到现有的关系型数据库、数据仓库等传统IT系统进行进一步的分析。 而MapReduce是Google提出的一种云计算的核心计算模式,是一种分布式运算技术,也是简化的分布式编程模式,MapReduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式, 在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配给计算机机群处理达到分布式运算的效果,在通过Reduce 函数的程序将结果汇整,从而输出开发者需要的结果。  再来看看Hadoop的特性,第一,它是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。其次,Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档