6MapReduce进阶编程分解.pptx

下载文档 降价啦

16
0
约 65页
2017-04-04 发布于湖北
举报
版权申诉
保障服务

6MapReduce进阶编程分解.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

MapReduce进阶编程主要内容定制Writables和WritableComparables 使用Avro文件保存二进制数据创建InputFormats和OutputFormats 序列化序列化将结构化对象转化为字节流，以便在网络上传输或写到磁盘进行永久存储。反序列化将字节流转回结构化对象的逆过程。用途进程间通信永久存储 Hadoop RPC 序列化格式紧凑：充分利用网络带宽，它是数据中心最缺稀的资源快速：尽量减少序列化和反序列化的开销可扩展：为了满足新的需求而不断变化，所以在控制客户端和服务端的过程中，需要直接引进相应的协议互操作：支持不同语言写的客户端与服务端交互 Hadoop序列化接口 Hadoop的序列化不是java的序列化，Hadoop自己实现了自己的序列化机制。 Hadoop使用Writables,满足紧凑、快速，不满足扩展能及互操作性 Hadoop中定义了两个序列化相关的接口：Writable接口和Comparable接口，这两个接口可以合成一个接口WritableComparable。 Writable接口 Writable?接口定义了两个方法一个用于将其状态写入二进制格式的?DataOutput?流；一个用于从二进制格式的?DataInput?流读取其状态； IntWritable类这是一个Java的int对象的封装，可以使用set()函数来创建和设置它的值。我们也可以使用构造函数: IntWritable序列化过程把一个java.io.ByteArrayOutputStream封装到java.io.DataOutputStream中（java.io.DataOutput的一个实现），以此来捕获序列化的数据流中的字节。 IntWritable序列化过程整数用四个字节写入。字节使用大端顺序写入，所以，最重要的字节写在数据流的开始处，这是由java.io.DataOutput接口规定的，我们可以使用Hadoop的StringUtils方法看到它们的十六进制表示: assertThat(StringUtils.byteToHexString(bytes), is(000000a3)); byte[] bytes = serialize(writable); assertThat(bytes.length, is(4)); IntWritable反序列化过程从一个字节数组读取一个Writable对象 IntWritable反序列化过程构造一个新的、缺值的IntWritable，然后调用deserialize()方法来读取刚写入的输出流。然后发现它的值还是原来的值163 WritableComparable和comparators IntWritable实现了WritableComparable接口，后者是Writable和java.lang.Comparable接口的子接口。类型的比较对MapReduce而言至关重要的，键和键之间的比较是在排序阶段完成。Hadoop提供的一个优化方法是从Java Comparator的RawComparator扩展。 RawComparator 允许执行者比较从流中读取的未被反序列化为对象的记录，从而省去了创建对象的所有开销。例如，IntWritables的comparator使用原始的compare()方法从每个字节数组的指定开始位置（S1和S2）和长度（L1和L2）读取整数b1和b2然后直接进行比较。 WritableComparator WritableComparator是对继承自WritableComparable类RawComparator的一个通用实现。提供两个主要功能一个默认的对原始compare()函数的调用，反序列化将在流中进行比较的对象，然后调用对象的compare()方法。充当RawComparator实例的一个工厂方法，例如，为获得IntWritable的comparator，我们只需使用: WritableComparator 直接比较两个IntWritable 比较序列化后的表示 Hadoop自带Writable类 Java基本类型的Writable类定制Writable类型 Hadoop有一套非常有用的Writable实现可以满足大部分需求，但在有些情况下，我们需要根据自己的需求构造一个新的实现。有了定制的Writable类型，就可以完全控制二进制表示和排序顺序。由于Writable是MapReduce数据路径的核心，所以调整二进制表示能对性能产生显著效果。 Hadoop自带的Writable实现已经过很好的性能调整，但如果希望将结构调整得更好，更好的做法往往是新建一个Writable