SOM算法在MapReduce框架上的实现讲解.docx

下载文档 降价啦

6
0
约 14页
2017-04-18 发布于湖北
举报
版权申诉
保障服务

SOM算法在MapReduce框架上的实现讲解.docx

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

查看更多

目录 TOC \o 1-3 \h \u HYPERLINK \l _Toc14820 1 Hadoop MapReduce编程框架 PAGEREF _Toc14820 1 HYPERLINK \l _Toc13440 1.1 Hadoop MapReduce编程框架的原理 PAGEREF _Toc13440 1 HYPERLINK \l _Toc28829 1.2 Hadoop MapReduce编程框架的执行过程 PAGEREF _Toc28829 1 HYPERLINK \l _Toc19491 2? SMO优化算法（Sequential minimal optimization） PAGEREF _Toc19491 2 HYPERLINK \l _Toc3821 2.1 SMO的基本思想 PAGEREF _Toc3821 2 HYPERLINK \l _Toc30640 2.2 选择两个样例的搜索方法 PAGEREF _Toc30640 4 HYPERLINK \l _Toc22133 2.3 SMO中拉格朗日乘子的启发式选择方法 PAGEREF _Toc22133 9 HYPERLINK \l _Toc10665 3 SOM算法在MapReduce框架上的实现 PAGEREF _Toc10665 10 PAGE \* MERGEFORMAT 13 1 Hadoop MapReduce编程框架 1.1 Hadoop MapReduce编程框架的原理 MapReduce是一种适用于大规模数据处理的编程模型。它将工作流程分为:map和reduce两个阶段，每个阶段都使用key/value对作为输入和输出，分别由进行任务分解的Map函数和对处理结果进行汇总的Reduce函数来实现。MapReduce将分布式处理的底层细节进行了封装，开发者只需要调用Map函数和Reduce函数即可编写分布式程序。因此，MapReduce己经成为云平台中主流的分布式数据处理模型。 Hadoop MapReduce是Google的Mapreduce的开源实现。主要有Map, Combine和Reduce三种操作组成： Map操作主要完成对任务的分解功能，将原始数据按照设定的参数值分割成数据块，并将从数据块中读取出来的key/value进行map处理生成中间结果键值对，并以缓冲的方式写到磁盘。每个Map操作对应一个默认大小为100M的环形缓冲区，当缓冲内容达到指定大小时，后台线程开始将溢出内容写入磁盘。 Combine操作是可选的，该操作将Map操作的中间结果键值对进行合并，即将具有相同key值的key/value对合并为一个键值对。 Reduce操作将分解后的多任务的处理结果进行汇总，输出最终结果。 Hadoop MapReduce中的Map, Reduce函数需要遵循如下形式: Map:(K1，V1) - list(K2，V2) Reduce:(K2，list(V2)) - list(K3，V3) 通常来说，Map函数的输入键值对(K1，V1)的数据类型与输出键值对(K2，V2)的数据类型是不一致的，但是Reduce函数的输入数据类型与Map函数的输出数据类型必须是相同的。 1.2 Hadoop MapReduce编程框架的执行过程 Hadoop MapReduce框架采用master/slave的组织结构。集群由一个主控节点master和若干个slaves节点组成。 master节点也称为jobtacker，负责调度构成一个作业的所有任务，并监控各个任务的执行情况，这些任务被分配在集群中的slave节点上完成。slave节点也称为tasktracker，仅负责执行由master指派的任务即可。一般来说，分布式文件系统(HDFS)与Hadoop MapReduce框架部署在同一个Hadoop集群上，也就是说存储节点与计算节点通常是相同的。这种配置允许Hadoop MapReduce框架在己经存放好数据的节点上高效地完成任务的执行和调度，同时有利于提高整个集群的网络带宽的使用率。当调用Hadoop MapReduce框架完成分布式作业时，集群主要完成以下工作: (1)分布式文件系统( HDFS)根据系统设置对原始数据文件进行分块处理，并将划分好的数据块部署在集群中，等待处理; (2)主控节点master根据分块任务的多少和各个slave节点的空闲情况进行任务的指派; (3)slave节点读取相关的数据块，并对其进行处理，产生的中间结果键值对(key/value)暂时缓冲在内存中; (4

您可能关注的文档

最近下载

文档评论（0）

shuwkb + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

相关文档

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 对外合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录

: 原创力文档APP下载

: 关注微信公众号

原创力文档从2008开站以来，已有超数十万网友上传了数亿文档，原创力文档定位于“知识资源平台、知识服务平台”；本网站为内容提供方提供“创作营收”解决方案：你只需要简单地上传及管理你的内容，而后续的宣传/推广/内容分发/售出下发/发票开具/知识增值创收都由我们完成，让你无后顾之忧！本网站所有资料为用户分享上传，若发现您的权利被侵害，请联系24小时智能客服，如遇紧急情况请联系侵权客服QQ：2885784724（客服上班时间为9:00-18:30）；若您有其他疑问或建议，可点击此处联系我们，上传者QQ群:751299218

公安局备案号：51011502000106 | 工信部备案号：蜀ICP备08101938号-1 | ICP经营许可证/EDI许可证：川B2-20180569 | 公司营业执照 | 出版物经营许可证：成新出发高新字第046号
© 2010-2024 max.book118.com 原创力文档. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992