- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Google云计算原理-SJTUCS.ppt
MPI(Message Passing Interface) 等并行编程方法缺少对高层并行编程模型和统一计算框架的支持,需要程序员处理许多底层细节, 为此MapReduce在三个层面上做了系统而巧妙的设计构思。
在大数据处理的基本方法上,对相互计算依赖不大的数据采取“分而治之”的处理策略。
借鉴了Lisp语言中的思想,用Map和Reduce两个函数提供了高层的并行编程抽象模型和接口。
对于诸多的底层实现和处理细节MapReduce提供了一个统一的计算框架,大大减轻了程序员在编程是的负担。;把小的键值对合并成大的键值对
Map计算过程中所产生的中间结果键值对需要通过网络传输给Reduce节点,大规模的键值对可能会大幅增大网络通信开销,并且降低程序执行速度,为此开采用一个基本的优化方法,即把大量小的键值对合并为较大的键值对。
例如在单词同现矩阵计算中,单词a可能会与多个其他单词共同出现,??而一个Map可能会产生很多个单词a与其他单词的键值对,如下:;a, b 1
a, c 3 a {b:1,c:3, d:5, e:8, f:4}
a, d 4
a, e 8
a, f 4 ;Map计算过程中,系统自动按照Map的输出键进行排序,因此进入Reduce的键值对都是按照key值排序的,但有时希望value也按一定规则排序。
方法1:在Reduce过程中对{value}列表中的值进行
本地排序,但当{value}列表数据量巨大时
必须使用复杂的外排算法,会很耗时。
方法2:将value中需要排序的部分加入到key中,
形成复合键,这样能利用MapReduce系统
的排序功能自动完成排序。
;Hadoop内置的数据类型
BooleanWritable:标准布尔型数值
ByteWritable:单字节数值
DoubleWritable:双字节数
FloatWritable:浮点数
IntWritable:整型数
LongWritable:长整型数
Text:使用UTF8格式存储的文本
NullWritable:当key, value中的key或value为空时使用;自定义数据类型的实现
首先实现Writable接口,以便该数据能被序列化后完成网络传输或文件输入/输出;
其次,如果该数据需要作为key使用,或者要比较数值大小时,则需要实现 WritableComparable接口。
例如将一个三维坐标P(x,y,z)定制为一个数据类型
pubic class Point3D implements WritablePoint3D
{
private float x,y,z;
public void readFields(DataInput in) throws IOException
{……}
public void write(DataOutput out) throws IOException
{……}
};如果Point3D还需要作为主键值使用,或者需要比较大小时,还应该实现WritableComparable接口
pubic class Point3D implements WritableComparablePoint3D
{
private float x,y,z;
public void readFields(DataInput in) throws IOException
{……}
public void write(DataOutput out) throws IOException
{……}
public int compareTo(Point3D p)
{
//具体实现比较当前的this(x,y,z)与p(x,y,z)的位置
//并输出-1,0,1
}
};Hadoop内置数据输入格式和RecordReader
TextInputFormat:是系统默认的数据输入格式,可以文本文件分块逐行读入,读入一行时,所产生的key为当前行在整个文件中的字节偏移位置,而value就是行内容。
KeyValueInputFormat:是另一个常用的数据输入格式,可将一个安照key, value格式逐行存放
您可能关注的文档
- 7.4.1WEKA中的术语-山东大学课程中心.ppt
- 7.4.5MySQL如何使用索引.doc
- 7.6.1系统分析.ppt
- 7.6数据库实施和维护.ppt
- 7.添加类图.doc
- 7500实时荧光定量PCR.doc
- 7527PSION手簿产品手册说明书-南方测绘.doc
- 7_1常量与变量.ppt
- 7投标文件的组成.doc
- 7索引与视图.ppt.ppt
- 2025年扎兰屯市卫健系统“归雁计划”回引人才笔试高频难、易错点备考题库及参考答案详解.docx
- 2025年山西省文物局所属事业单位招聘工作人员笔试备考题库及参考答案详解1套.docx
- 2025年民族出版社面向应届生招聘事业编制专业技术人员笔试备考题库及参考答案详解.docx
- 2025年当阳市公安局招聘警务辅助人员30人笔试备考题库及答案详解1套.docx
- 2025年水利部珠江水利委员会所属事业单位第二批招聘笔试高频难、易错点备考题库及参考答案详解.docx
- 2025年成就江来”浙江省衢州市衢江区综合事业单位招聘优秀应届生(二)笔试备考题库带答案详解.docx
- 2025年山东青岛市卫生健康委员会直属事业单位校园招聘807人笔试备考题库及完整答案详解1套.docx
- 2025年广西百色市西林县民政局招聘4人笔试备考题库及完整答案详解1套.docx
- 2025年广东省特种设备检测研究院揭阳检测院第一批招聘笔试备考题库及答案详解1套.docx
- 2025年江苏南京大学全球人文研究院准聘长聘岗位招聘笔试高频难、易错点备考题库参考答案详解.docx
最近下载
- 专题01 定语从句100题(考点串讲)(word版有答案).docx VIP
- 凿井井架设计汇编.doc VIP
- 北京某电力隧道工程投标施工组织设计.doc VIP
- 《【阅读专题2】故物与深情:感受血缘中的亲情》教学课件.pptx VIP
- 人教版九年级英语 课文标注笔记 全册.pdf VIP
- 北京某电力隧道工程(投标)施工组织设计.pdf VIP
- 高压旋喷桩技术交底1 - 桩基础.docx VIP
- 17J008 挡土墙(重力式、衡重式、悬臂式)(最新).pdf VIP
- 《【阅读专题1】忠与孝:体会宗法社会的伦理选择之难》教学课件 (1).pptx VIP
- 力普LP100说明书PDF_Image_Marked.pdf VIP
文档评论(0)