- 0
- 0
- 约8.15千字
- 约 26页
- 2019-06-13 发布于江苏
- 举报
++
《Rhadoop实践课程》
第一课
Kmeans算法实现
2014.3.14 李明
博客
文档概述 +
通过kmeans在RHadoop上的实现方案,讲解R+Hadoop
解决方案
博客
+
目录
1 Rhadoop原理概述
2 kmeans算法概述,数据集及R语言实现方案
3 Rhadoop实现方案
博客
Mapreduce原理 +
建立针对每个样本点的逐条处理语句,慎重使用sum等涉及多个样本点的语句。因为数据在分配
到datanode时是不可控的,易出错误:x[i]/sum(x)/x[i]/sum(x[node1上的样本])
把输入的HDFS数据放于不同datanode数据节点上
(此时即使是键值对数据也会被打乱)
每个datanode上运行map()阶段函数
每个datanode上产生key-value键值对
自动依据key值把不同datanode上
产生的键值对进行重排序
应为经过了从排序处理,所以每个reduce上处理的数据是
可控的(通过map输出的key值),所以可以使用sum等涉
及多个样本的语句
执行reduce阶段处理,每个reduce()函数的输入
数据对应1组key相同的键值对数据。
输出键值对
博客
Wordcount实例原理 +
wordcount = function( input, output = NULL, pattern = ){
wc.map = function(., lines) { keyval( unlist( strsplit( x = lines, split = pattern)), 1)}
wc.reduce = function(word, counts ) { keyval(word, sum(counts))}
mapreduce( input = input , output = output,
input.format = text,
map = wc.map, reduce = wc.reduce, combine = T)}
自动操作
博客
+
目录
1 Rhadoop原理概述
2 kmeans算法概述,数据集及R语言实现方案
3 Rhadoop实现方案
您可能关注的文档
最近下载
- 合成生物学教材配套电子课件完整版电子教案.pptx
- AGMA 2000--A88-中文翻译版本.pdf VIP
- TwinSAFE EL6900 安全模块基础使用指南(针对TC3.1.4020.0版本).pdf VIP
- ISO22163-2023内审员审核技术培训.pdf VIP
- 提高钻孔灌注桩成孔质量一次验收合格率.docx VIP
- (完整版)放射工作人员培训考试试题(附答案).docx VIP
- 习题答案数字电路与系统设计 (8).docx VIP
- 小学科学四下作业本(浙江).pdf VIP
- 标准图集-中南11ZJ111 变形缝建筑构造.pdf VIP
- 精品解析:江苏省苏州市吴中区2025年中考二模考试英语试题(解析版).docx VIP
原创力文档

文档评论(0)