map数据输入.PPT

下载文档 降价啦

25
0
约2.3万字
约 89页
2017-08-05 发布于天津
举报
版权申诉
保障服务

map数据输入.PPT

1、本文档共89页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

map数据输入

Hadoop Hadoop 现实生活中的一些问题-数据篇现实生活中的一些问题-解决方案篇 Hadoop背景 Hadoop是什么 Hadoop能解决什么 HDFS Map/Reduce 现实生活中的一些问题-数据篇纽约证券交易所每天产生1TB的交易数据社交网站facebook的主机存储着约10亿张照片，占据PB级存储空间互联网档案馆存储着约2PB数据，并以每月至少20TB的速度增长。瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据。这样的数据该怎么存储和读取？如何进行分析？如何高效的进行分析？传统的BI分析是否还能适应这样当量的数据分析？BI跟大数据有什么区别？现实生活中的一些问题-数据篇传统的BI分析是否还能适应这样当量的数据分析？BI跟大数据有什么区别？众所周知，BI之前采集的数据大多来自ERP、CRM等，基本都是格式化的数据，但大数据采集的数据种类远超过往，是非结构化的数据，这就要求数据处理技术在分析、算法上做出极大的改变，已经不能依赖传统的BI工具。其实，BI和大数据都要构建数据仓库、分析系统，之后进行数据挖掘，实现数据呈现，运行机理和技术结构是一致的。但与BI不同，大数据处理的是杂乱的、非结构化的数据，大数据有自己的数据分析工具，建模要比BI复杂很多，数据呈现也不只是通过报表方式，所以大数据的内涵更复杂厚重，能力也比传统BI强大得多。同时，有业内人士认为，大数据应用当前正在向传统行业拓展，几年前还只是大型网络公司应用大数据技术。如今，零售业、银行业、公共事业、智能社区等领域，几乎所有拥有海量数据的企业都在使用大数据技术，这些技术在部分项目中也起到了关键作用，这会进一步挤压传统BI工具的生存空间。现实生活中的一些问题-解决方案篇问题：给出三类问题，遇这类问题，您如何解决？问题常规解决方案：最直接思维！问题分布式解决方案：这几乎是Hadoop的解决方案现实生活中的一些问题-解决方案篇场景：假设配置完全相同的机器M01~M0X，并且每台机器都是1个双核CPU，5G硬盘。现有两个大小都是2G的文件file01和file02 现实生活中的一些问题-解决方案篇现实生活中的一些问题-解决方案篇现实生活中的一些问题-解决方案篇现实生活中的一些问题-解决方案篇现实生活中的一些问题-解决方案篇现实生活中的一些问题-解决方案篇现实生活中的一些问题-解决方案篇 Google-解决方案篇 Google的数据中心使用廉价的Linux PC机组成集群，在上面运行各种应用。核心组件是3个： 1、GFS（Google File System）。一个分布式文件系统，隐藏下层负载均衡，冗余复制等细节。 2、MapReduce。Google发现大多数分布式运算可以抽象为MapReduce操作。Map是把输入Input分解成中间的Key/Value对，Reduce把Key/Value合成最终输出Output。 3、BigTable。一个大型的分布式数据库，这个数据库不是关系式的数据库。像它的名字一样，就是一个巨大的表格，用来存储结构化的数据。 Hadoop背景 Hadoop是什么 Hadoop简介 Hadoop 一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。 Hadoop是项目的总称，主要是由分布式存储（HDFS）、分布式计算（MapReduce）组成。 Hadoop程序目前只能运行在Linux系统上，window上运行需要安装其他插件，安装过程见《hadoop安装说明.docx》。 Hadoop是什么 Hadoop优势可扩展：不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。经济：框架可以运行在任何普通的PC上。可靠：分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。（元数据磁盘错误，心跳测试，副本数，快照（目前还没实现））高效：分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式，为高效处理海量的信息作了基础准备。 Hadoop是什么 Hadoop生态系统 HBase 建立在Hadoop内核之上，提供可靠的，可扩展的分布式数据库。 ZooKeeper 一个高效的，可扩展的协调系统。分布式应用可以使用ZooKeeper来存储和协调关键共享状态。 Hive 数据仓库 PIG 建立于Hadoop内核之上，是一种支持并行计算运行框架的高级数据流语言。 Chukwa Hadoop日志分析工具。 Hadoop能解决什么 Hadoop能做什么？ Hadoop是适