- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于MapReduce的Canopy-Kmeans改进算法-计算机工程与应用
22 2012 ,48 (27 ) Computer Engineering and Applications 计算机工程与应用
基于MapReduce 的Canopy-Kmeans 改进算法
毛典辉
MAO Dianhui
北京工商大学 计算机与信息工程学院,北京 100048
School of Computer and Information Engineering, Beijing Technology and Business University, Beijing 100048, China
MAO Dianhui. Improved Canopy-Kmeans algorithm based on MapReduce. Computer Engineering and Ap-
plications, 2012, 48 (27 ):22-26.
Abstract :In order to solve the problem that how to void random Canopy selection of Canopy-Kmeans algorithm,
this paper introduces an improved algorithm based on the minimum and maximum principle and realizes processing
massive data based on MapReduce framework. Meanwhile, the algorithm is carried out in massive Internet news ag-
gregation. The experiments show that the strategy of Canopy selection based on the minimum and maximum princi-
ple has higher classification accuracy and noise immunity compared to random strategy.
Key words :Canopy-Kmeans; MapReduce; distributed aggregation
摘 要:针对分布式Canopy-Kmeans 算法中Canopy 选取的随机性问题,采用“最小最大原则”对该算法进行了
改进,避免了Cannopy 选取的盲目性;采用MapReduce 并行计算框架对算法进行了并行扩展,使之能够充分利
用集群的计算和存储能力,从而适应海量数据的应用场景。以海量互联网新闻信息聚类作为应用背景,对改
进后的算法进行了实验分析。实验结果表明:该方法较随机挑选Canopy 策略在分类准确率以及抗噪能力上都
明显提高,而且在处理海量数据时表现出较大的性能优势。
关键词:Canopy-Kmeans 算法;MapReduce;分布式聚类
文章编号:1002-8331(2012 )27-0022-05 文献标识码:A 中图分类号:TP301
1 引言 算效率较高等优点,因此成为应用最为广泛的分布
聚类是按照“物以类聚”的思想将数据集合分成 式聚类算法。Canopy-Kmeans 是一种对K-means 优
若干类或簇,使得每个簇中的数据最大程度得相似, 化的聚类算法,引入Canopy 后,每次只比较落在同一
[1] 区域内对象与中心点之间的距离,通过减少比较次
属于一种无监督的学习过程 。当前绝大多数聚类
算法适用于集中式数据的处理,算法效率受限于单 数大大降低整个聚类的运行时间,提高了算法的计
[7]
机处理能力,面对日益增长的分布式存储的海量信 算效率 。算法在实际应用中需预先设置聚类的初
息,现有的聚类算法均存在着伸缩性与扩展性较差 始种子点(初始Canopy 中心点)、聚类个数k (Canopy
[2] 个数)、Canopy 区域大小等初始值,初始值选取的好
等问题 ,因此由多台计算机共同参与计算的分布式
聚类算法成为当前聚类算法的
您可能关注的文档
- 地球在宇宙中太阳对地球的影响………三年4考高考指数1.PPT
- 地球的宇宙环境太阳对地球的影响和地球的圈层结构单项.DOC
- 地球磁层对磁云边界层的大尺度响应分析—个例研究ViewTableof.PDF
- 地球空间双星探测计划-地球物理学报.PDF
- 地理-前镇国民中学全球资讯网.DOC
- 地理环境对区域发展的影响长江三角洲和松嫩平原的比较实例-资源.PPT
- 地理条件东北地区范围41我国东北地区区域农业发展独特的地理.PPT
- 地理必修一宇宙中的地球地球的圈层结构.PDF
- 地理第1章历年基测试题.DOC
- 地理环境的整体性和差异性松口中学.ppt
- 基于MATLAB-GUI的风电机组功率特性测试数据分析-计算机应用与软件.PDF
- 基于MATLAB图像处理技术的纱线气圈张力测量方法研究-纺织科技进展.PDF
- 基于LOLA数据的冯·卡门地区地形特征分析-深空探测学报.PDF
- 基于Mann-Kendall法的张掖降水量时空分布规律分析-资源科学.PDF
- 基于mATLAB仿真的模拟乘法器Am波分析-绵阳师范学院学报.PDF
- 基于MATLAB语言的发动机万有特性研究-吉林农业大学学报.PDF
- 基于MaxEnt分析金钱松适生的生物气候特征-林业科学.PDF
- 基于Modis地表温度的横断山区气温估算及其时空规律分析-中国科学院.PDF
- 基于MODIS时序NDVI特征值提取多作物播种面积的方法-资源科学.PDF
- 基于MODIS的内蒙古气溶胶时空分布特征分析-环境科学学报.PDF
最近下载
- 2011届高考化学一轮复习专题模拟检测:专题5_氮族元素及其化合物.doc VIP
- Unit6大单元教学整体单元分析课件人教版九年级英语全册.ppt
- 教育信息化背景下跨学科教学资源的数字化建设.docx
- 城镇直埋供热管道电预热安装施工工法(技术方案).pdf VIP
- 2014造口治疗师培训个案发展计划及产品册造口学校.pdf VIP
- 标准化乡镇卫生院制度.doc
- 2026年湖南科技职业学院单招职业技能考试必刷测试卷完美版.docx VIP
- 2024年9月8日贵州省黔西南州州直遴选(事业单位考聘)笔试真题及答案解析.doc VIP
- 2025年兵棋章节答案.docx VIP
- 酒店工程部计件量化方案(3篇).docx VIP
文档评论(0)