hadoop mapreduce教程 Hadoop-MapReduce入门教程(含视频教程).doc

下载文档 降价啦

135
0
约1.37万字
约 41页
2017-01-11 发布于贵州
举报
版权申诉
保障服务

hadoop mapreduce教程 Hadoop-MapReduce入门教程(含视频教程).doc

1、本文档共41页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

hadoop mapreduce教程 Hadoop-MapReduce入门教程(含视频教程) 导读：就爱阅读网友为您分享以下“Hadoop-MapReduce入门教程(含视频教程)”的资讯，希望对您有所帮助，感谢您对92的支持! 1. 检验作业的输出，例如检查输出路径是否已经存在。 2. 提供一个RecordWriter的实现，用来输出作业结果。输出文件保存在FileSystem上。 TextOutputFormat是默认的 OutputFormat。任务的Side-Effect File 在一些应用程序中，子任务需要产生一些side-file，这些文件与作业实际输出结果的文件不同。在这种情况下，同一个Mapper或者Reducer的两个实例（比如预防性任务）同时打开或者写 FileSystem上的同一文件就会产生冲突。因此应用程序在写文件的时候需要为每次任务尝试（不仅仅是每次任务，每个任务可以尝试执行很多次）选取一个独一无二的文件名(使用attemptid，例如 task_200709221812_0001_m_000000_0)。为了避免冲突，Map/Reduce框架为每次尝试执行任务都建立和维护一个特殊的 ${mapred.output.dir}/_temporary/_${taskid}子目录，这个目录位于本次尝试执行任务输出结果所在的FileSystem上，可以通过 ${mapred.work.output.dir}来访问这个子目录。对于成功完成的任务尝试，只有 ${mapred.output.dir}/_temporary/_${taskid}下的文件会移动到 ${mapred.output.dir}。当然，框架会丢弃那些失败的任务尝试的子目录。这种处理过程对于应用程序来说是完全透明的。在任务执行期间，应用程序在写文件时可以利用这个特性，比如通过 FileOutputFormat.getWorkOutputPath()获得${mapred.work.output.dir}目录，并在其下创建任意任务执行时所需的side-file，框架在任务尝试成功时会马上移动这些文件，因此不需要在程序内为每次任务尝试选取一个独一无二的名字。注意：在每次任务尝试执行期间，${mapred.work.output.dir} 的值实际上是 ${mapred.output.dir}/_temporary/_{$taskid}，这个值是Map/Reduce框架创建的。所以使用这个特性的方法是，在 FileOutputFormat.getWorkOutputPath() 路径下创建side-file即可。对于只使用map不使用reduce的作业，这个结论也成立。这种情况下，m