Hadoop编程实践教案.pptVIP

下载本文档

7
0
约1.26万字
约 99页
2016-11-05 发布于湖北
举报
版权申诉

Hadoop编程实践教案.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

查看HDFS基本统计信息 * 在新节点安装好hadoop 把namenode的相关配置文件复制到该节点修改masters和slaves文件，添加该节点设置ssh无密码登陆该节点单独启动该节点上的datanode和tasktracker（hadoop-daemon.sh start datanode/tasktracker) 运行start-balancer.sh进行数据负载均衡怎么添加节点 * Page 1：the weather is good. Page 2 : good weather is good. 举例：单词计数 * (key,value) (the,1) (weather,1) (is,1) (good,1) (key,value) (good,1) (weather,1) (is,1) (good,1) (key,value) (the,1) (weather,2) (is,2) (good,3) Map1 Map2 Reduce void map(LongWritable key, Text value, OutputCollectorText, IntWritable output, Reporter reporter) {?????? String line = value.toString(); ????? StringTokenizer t= new StringTokenizer(line); while (t.hasMoreTokens()) { ???????? word.set(t.nextToken()); ???????? output.collect(word, one); ? } ?? } Map函数 * void reduce(Text key, IteratorIntWritable values, OutputCollectorText, IntWritable output, Reporter reporter) {?????? int sum = 0; ?????? while (values.hasNext()) { ?????? sum += value.next().get(); } output.collect(key,new IntWritable(sum)); } Reduce函数 * 重写Map/Reduce函数设置Job属性打包程序并向JobTracker提交监控程序进度得到最终结果程序运行 * 日志分析排序搜索广告计算，广告优化、分析，点击流分析，链接分析搜索关键字进行内容分类搜索引擎，创建索引 word 计数，统计值计算，统计数据，过滤，分析，查询垃圾数据分析数据分析机器学习数据挖掘大规模图像转换（纽约时报使用Hadoop 和EC2在36个小时内将4TB的TIFF图像—包括405K大TIFF图像，3.3M SGML文章和405K XML文件 — 转换为800K适合在Web上使用的PNG图像。） MapReduce的应用 * * * * * * * * * Flume:cloudera提供日志收集系统 Sqoop:与关系数据库转移工具HueCloudera提供用户管理界面 Chukwa:数据收集系统 Avro数据序列化系统 Cassandra:分布式NoSQL数据库 Hama：基于块同步并行(Bulk sync parall)的科学计算、图形处理等复杂计算工具 Mashout:机器学习 * * * Map-reduce的思想是“分而治之” Mapper：负责“分”，把复杂的任务分解成若干个“简单的任务”并行执行。简单任务的含义：1、数据或计算规模较小，2、就近计算；3、可以并行计算，彼此间几乎没有依赖关系。 Reducer：对map阶段的结果进行汇总，reducer数目默认是1。 * * * * 当map开始产生输出时，并不是简单的写入到磁盘，先是写入到缓冲区，并进行预排序，以提升效率。 MapReduce数据流—— shuffle和sort * Partitons:每一个reduce节点会分派到中间输出的键集合中的一个不同的子集合 Partitioner类决定键值对去向，默认分类器计算键哈希值 Spill线程把缓冲区数据写到磁盘前，会对它进行一个二次快速排序，首先根据数据属性的par