Hadoop编程实践分析.ppt

下载文档 降价啦

9
0
约1.32万字
约 107页
2016-06-10 发布于湖北
举报
保障服务

Hadoop编程实践分析.ppt

* * * NameNode * 命令行方式操作 HDFS文件操作 * Hadoop没有当前目录的概念，列出HDFS下的文件 * 上传文件到HDFS * 将HDFS文件复制到本地 * 查看HDFS基本统计信息 * 在新节点安装好hadoop 把namenode的相关配置文件复制到该节点修改masters和slaves文件，添加该节点设置ssh无密码登陆该节点单独启动该节点上的datanode和tasktracker（hadoop-daemon.sh start datanode/tasktracker) 运行start-balancer.sh进行数据负载均衡怎么添加节点 * Page 1：the weather is good. Page 2 : good weather is good. 举例：单词计数 * (key,value) (the,1) (weather,1) (is,1) (good,1) (key,value) (good,1) (weather,1) (is,1) (good,1) (key,value) (the,1) (weather,2) (is,2) (good,3) Map1 Map2 Reduce void map(LongWritable key, Text value, OutputCollectorText, IntWritable output, Reporter reporter) {?????? String line = value.toString(); ????? StringTokenizer t= new StringTokenizer(line); while (t.hasMoreTokens()) { ???????? word.set(t.nextToken()); ???????? output.collect(word, one); ? } ?? } Map函数 * void reduce(Text key, IteratorIntWritable values, OutputCollectorText, IntWritable output, Reporter reporter) {?????? int sum = 0; ?????? while (values.hasNext()) { ?????? sum += value.next().get(); } output.collect(key,new IntWritable(sum)); } Reduce函数 * 重写Map/Reduce函数设置Job属性打包程序并向JobTracker提交监控程序进度得到最终结果程序运行 * 日志分析排序搜索广告计算，广告优化、分析，点击流分析，链接分析搜索关键字进行内容分类搜索引擎，创建索引 word 计数，统计值计算，统计数据，过滤，分析，查询垃圾数据分析数据分析机器学习数据挖掘大规模图像转换（纽约时报使用Hadoop 和EC2在36个小时内将4TB的TIFF图像—包括405K大TIFF图像，3.3M SGML文章和405K XML文件 — 转换为800K适合在Web上使用的PNG图像。） MapReduce的应用 * 习题1：基本操作上传文件到HDFS 查看/设置文件的备份数删除文件、文件夹习题2：查看文件查看文件状态查看文件内容习题3：使用Java API读取文件内容练习一：使用Hadoop HDFS * 习题1：基本操作运行示例代码wordcount 查看任务结果杀死任务习题2：查看任务状态命令行查看 web页面查看练习二：maprduce * 习题3：阅读理解wordcount代码习题4：编写MapReduce逻辑：分布式Grep 习题5：编写MapReduce逻辑：Join 练习二：maprduce * * * * * * * * * * * * * Flume:cloudera提供日志收集系统 Sqoop:与关系数据库转移工具HueCloudera提供用户管理界面 Chukwa:数据收集系统 Avro数据序列化系统 Cassandra:分布式NoSQL数据库 Hama：基于块同步并行(Bulk sync parall)的科学计算、图形处理等复杂计算工具 Mash

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Hadoop编程实践分析.ppt