- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
朱佳
目录0102Hadoop如何启用压缩Spark的压缩和数据序列化
Hadoop如何启用压缩1
Hadoop如何启用压缩可以使用Hadoop中的几个编解码器来压缩(和解压缩)数据。编解码器是Com-pressionCodec类的实现,可以在core-site.xml文件中通过设置属性pression. codecs指定合适的压缩编解码器。例如,在core-site.xml文件中通过设置SnappycompressionCodec实现类来指定Snappy压缩。
Hadoop如何启用压缩由于在默认情况下未启用压缩,因此必须在mapred-site.xml文件中将这两个参数都设置为true来启用压缩。press:压缩中间map输出。press:压缩MapReduce作业输出press参数确定map输出在通过网络发送之前是否应该被压缩,此参数的默认值为press参数确定作业输出是否应该被压缩,在默认情况下该参数被设置为false。
Hadoop如何启用压缩如果不频繁处理存储的数据,并且压缩因子很高,或者数据以压缩格式到达,则最好压缩该数据。如果使用的压缩格式(如Snappy),其解压缩速度相当高,也最好压缩数据。因为数据支出一个小的压缩开销,但收益很多。另一方面,如果只能获得微薄的好处冗余度不是很高,且压缩数据不是可拆分格式,则使用压缩可能得不偿失。
Spark的压缩和序列化2
Spark的压缩和序列化Spark自带了与压缩相关的配置参数。例如,可以在发送广播变量之前压缩广播变量,方法是设置press属性(默认值为true)。Spark允许使用pression.codec属性压缩内部数据,例如RDD分区、广播变量和shuffle输出。Spark提供三种编解码器:lz4、lzf和Snappy(默认)。在指定编解码器时,可以选择使用完全限定类名。
Spark的压缩和序列化数据的原始形式是比特序列或流。当从外部源发送数据到HDFS时,将数据以这种原始形式通过网络传输并存储在磁盘上。序列化是将结构化数据转换为其底层原始形式的过程,而反序列化是从原始形式重建结构化数据的相反过程。选择了正确的文件格式类型后,还可以选择所需的序列化类型。Hadoop 使用可写界面对数据进行序列化和反序列化。Hadoop的序列化比Java序列化更紧凑,因此更高效。可以将任何类型的可选序列化框架与MapReduce作业集成。许多框架都能使数据序列化和反序列化更加紧凑和快速。
Spark的压缩和序列化通常,序列化和反序列化(SerDe)用于在Hive表读取和写入数据。SerDe模块位于数据的文件格式和Hive表中行的对象表示之间。以下总结了序列化和反序列化的工作原理:序列化:Row Object =Serializer =key,value = OutputFormat = HDFS File反序列化:HDFS File =InputFileFormat =key,value =Deserializer =Row Object
您可能关注的文档
- 二零二三年 优质公开课Spark性能优化.pptx
- 二零二三年 优质公开课Spark执行模型.pptx
- Spark技术发展历程.pptx
- Spark技术模块简介.pptx
- Spark技术流式处理模块.pptx
- Spark技术流式处理模块特性与原理.pptx
- Spark技术流式处理模块简介.pptx
- 二零二三年 优质公开课Spark技术简介.pptx
- 二零二三年 优质公开课Spark是什么.pptx
- 二零二三年 优质公开课Spark架构模型.pptx
- 2024年云南省大理白族自治州企业人力资源管理师之四级人力资源管理师考试【巩固】.docx
- 2024年云南省保山地区企业人力资源管理师之四级人力资源管理师考试大全附答案(基础题).docx
- 2024年云南省临沧地区企业人力资源管理师之一级人力资源管理师考试通用题库【预热题】.docx
- 2024年云南省丽江地区企业人力资源管理师之一级人力资源管理师考试题库精品带答案.docx
- 2024年云南省怒江傈僳族自治州企业人力资源管理师之一级人力资源管理师考试通关秘籍题库含答案(突破训.docx
- 2024年云南省怒江傈僳族自治州企业人力资源管理师之一级人力资源管理师考试题库(实用).docx
- 2024年云南省保山地区企业人力资源管理师之一级人力资源管理师考试大全带答案(名师推荐).docx
- 2024年云南省大理白族自治州企业人力资源管理师之四级人力资源管理师考试题库大全及答案(全国通用).docx
- 2024年中考英语专题复习之冲刺篇—阅读理解之任务型阅读 .pdf
- 2024年云南省保山地区企业人力资源管理师之一级人力资源管理师考试真题题库精品(网校专用).docx
文档评论(0)