- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop编程实践研讨
* * * NameNode * 命令行方式操作 HDFS文件操作 * Hadoop没有当前目录的概念, 列出HDFS下的文件 * 上传文件到HDFS * 将HDFS文件复制到本地 * 查看HDFS基本统计信息 * 在新节点安装好hadoop 把namenode的相关配置文件复制到该节点 修改masters和slaves文件,添加该节点 设置ssh无密码登陆该节点 单独启动该节点上的datanode和tasktracker(hadoop-daemon.sh start datanode/tasktracker) 运行start-balancer.sh进行数据负载均衡 怎么添加节点 * Page 1:the weather is good. Page 2 : good weather is good. 举例:单词计数 * (key,value) (the,1) (weather,1) (is,1) (good,1) (key,value) (good,1) (weather,1) (is,1) (good,1) (key,value) (the,1) (weather,2) (is,2) (good,3) Map1 Map2 Reduce void map(LongWritable key, Text value, OutputCollectorText, IntWritable output, Reporter reporter) {?????? String line = value.toString(); ????? StringTokenizer t= new StringTokenizer(line); while (t.hasMoreTokens()) { ???????? word.set(t.nextToken()); ???????? output.collect(word, one); ? } ?? } Map函数 * void reduce(Text key, IteratorIntWritable values, OutputCollectorText, IntWritable output, Reporter reporter) {?????? int sum = 0; ?????? while (values.hasNext()) { ?????? sum += value.next().get(); } output.collect(key,new IntWritable(sum)); } Reduce函数 * 重写Map/Reduce函数 设置Job属性 打包程序并向JobTracker提交 监控程序进度 得到最终结果 程序运行 * 日志分析 排序 搜索 广告计算,广告优化、分析,点击流分析,链接分析 搜索关键字进行内容分类 搜索引擎,创建索引 word 计数,统计值计算,统计数据,过滤,分析,查询 垃圾数据分析 数据分析 机器学习 数据挖掘 大规模图像转换(纽约时报使用Hadoop 和EC2在36个小时内将4TB的TIFF图像—包括405K大TIFF图像,3.3M SGML文章和405K XML文件 — 转换为800K适合在Web上使用的PNG图像。) MapReduce的应用 * 习题1:基本操作 上传文件到HDFS 查看/设置文件的备份数 删除文件、文件夹 习题2:查看文件 查看文件状态 查看文件内容 习题3:使用Java API读取文件内容 练习一:使用Hadoop HDFS * 习题1:基本操作 运行示例代码wordcount 查看任务结果 杀死任务 习题2:查看任务状态 命令行查看 web页面查看 练习二:maprduce * 习题3:阅读理解wordcount代码 习题4:编写MapReduce逻辑:分布式Grep 习题5:编写MapReduce逻辑:Join 练习二:maprduce * * * * * * * * * * * * * Flume:cloudera提供日志收集系统 Sqoop:与关系数据库转移工具HueCloudera提供用户管理界面 Chukwa:数据收集系统 Avro数据序列化系统 Cassandra:分布式NoSQL数据库 Hama:基于块同步并行(Bulk sync parall)的科学计算、图形处理等复杂计算工具 Mash
文档评论(0)