- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Java开发2.0用HadoopMapReduce进行大数据分析
Java开发2.0:用Hadoop MapReduce进行大数据分析
导读:Apache Hadoop是目前分析分布式数据的首选工具,和大多数Java? 2.0技术一样,是可扩展的。从Hadoop的MapReduce编程建模开始,学习如何用它来分析数据,满足大大小小的商业信息需求。
关键词:Hadoop?分布式数据?Java 2.0?MapReduce?编程建模?
Google在2001年发布图像搜索功能时,只有2.5亿索引图像,不到10年,这个巨大的搜索功能已经可以检索超过100亿个图像了,每分钟有35小时的内容上传到YouTube。据称,Twitter每天平均处理5500万tweet。今年早些时候,搜索功能每天记录6亿条查询记录。这 就是我们讨论大数据的意义所在。
Advertisement
如此大规模的数据一度仅限于大企业、学校和政府机构 — 这些机构有能力购买昂贵的超级计算机、能够雇用员工保障其运行。今天,由于存储成本的降低和处理能力的商品化,一些小公司,甚至个人都可以存储和挖掘同样的数据,推动新一轮的应用程序创新。
大数据革命技术之一是MapReduce,一个编程模式,是Google针对大规模、分布式数据而开发的。在本文中,我将介绍Apache的开源MapReduce实现、Hadoop,也有人将其称之为云计算的杀手应用程序。
关于Hadoop
Apache的Hadoop框架本质上是一个用于分析大数据集的机制,不一定位于数据存储中。Hadoop提取出了MapReduce的大规模数据分析引擎,更易于开发人员理解。Hadoop可以扩展到无数个节点,可以处理所有活动和相关数据存储的协调。
Hadoop的众多特性和配置使其成为一个十分有用且功能强大的框架,其用途和功能令人惊讶。Yahoo!以及其他许多组织已经找到了一个高效机制来分析成堆的字节数。在单个节点上运行Hadoop也很容易;您所需要的只是一些需要分析的数据,以及熟悉一般的Java代码。Hadoop也可和 uby、Python以及C++一起使用。
作为处理大数据集的概念框架,MapReduce对于使用许多计算机来解决分布式问题而言是高度优化的。顾名思义,这个框架由两个函数构成。map 函数专用于获取大数据输入,并将其分成小片段,然后交由其他进程进行操作。reduce函数整理map收集的各个回应,然后显示最后的输出。
在Hadoop中,您可以通过扩展Hadoop自身的基类来定义map和reduce实现。实现和输入输出格式被一个指定它们的配置联系在一起。Hadoop非常适合处理包含结构数据的大型文件。Hadoop可以对输入文件进行原始解析,这一点特别有用,这样您就可以每次处理一行。定义一个map函数实际上只是一个关于确定您从即将输入的文本行中捕获什么内容的问题。
数据,无处不在的数据!
美国政府产生大量数据,只有一部分是普通民众所感兴趣的。各种政府机构免费发布关于US经济健康状况和更改社会人口统计资料的数据。U.S. Geological Survey (USGS)发布国内外地震数据。
世界各地每天都有很多个小型地震发生。其中大多数发生在地壳深处,没有人能感觉到,尽管如此,但是监听站仍然会进行记录。USGS以CSV(或逗号分隔值)文件的格式发布每周地震数据。
每周文件平均不是很大 — 只有大约100KB左右。但是,它可以作为学习Hadoop的基础。记住,Hadoop有能力处理更 大的数据集。
跟踪震动
我近期从USGS网站下载的CSV文件有大约920多行。如 清单 1 所示:
清单 1.一个USGS地震数据文件的行数统计????
以下是引用片段:$?wc?-l?eqs7day-M1.txt????920?eqs7day-M1.txt CVS文件内容如清单2所示(这是前两行):
清单 2. CVS文件的前两行????
以下是引用片段:$?head?-n?2?eqs7day-M1.txt??Src,Eqid,Version,Datetime,Lat,Lon,Magnitude,Depth,NST,Region?ci2,Sunday,?December?12,?2010?23:23:20?UTC,33.3040,-116.4130,1.0,11.70,22,???Southern?California 这就是我称之为信息丰富 的文件,尤其是当您想到它总共有920行记录时。然而我只想知道在该文件报告的这一周内每一天有多少次地震发生。我想知道在这7天内哪个区域是地震频发区。
我第一个想到的就是使用简单的grep命令来搜索每天的地震数。看看这个文件,我发现数据记录是从1
您可能关注的文档
- 5.5.病毒导学案.doc
- 5-7直辖十年重庆经济增长质量及对策探讨.doc
- 5.4_从三个方向看互联网教案.doc
- 5.8二次函数的应用NO.12.doc
- 5.1_四大地理区域的划分导学案.doc
- 5.动点产生的面积问题(学生).doc
- 53第五十三单元蠕虫感染.doc
- 521-导数的概念(1,2).doc
- 5三类项目负责人题和答案.doc
- 5点建议解决孩子注意力不集中问题.doc
- 高校教师资格证之《高等教育法规》全真模拟模拟题及参考答案详解(黄金题型).docx
- 高校教师资格证之《高等教育法规》强化训练高能含答案详解(研优卷).docx
- 高校教师资格证之《高等教育法规》强化训练模考卷及完整答案详解.docx
- 高校教师资格证之《高等教育法规》强化训练及答案详解【精选题】.docx
- 高校教师资格证之《高等教育法规》真题精选带答案详解(b卷).docx
- 高校教师资格证之《高等教育法规》综合检测题型汇编附答案详解【完整版】.docx
- 高校教师资格证之《高等教育法规》自我提分评估及答案详解(历年真题).docx
- 高校教师资格证之《高等教育法规》考前冲刺测试卷附参考答案详解(a卷).docx
- 高校教师资格证之《高等教育法规》含答案详解(新).docx
- 高校教师资格证之《高等教育法规》强化训练题型汇编带答案详解(满分必刷).docx
文档评论(0)