- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于云计算平台的并行DBSCAn算法
第33卷 第1期 广东工业大学学报 Vol.33No.1
2016年1月 JournalofGuangdongUniversityofTechnology January2016
doi:10.3969/j.issn.10077162.2016.01.010
基于云计算平台的并行 DBSCAN算法
蔡永强,陈平华,李 惠
(广东工业大学 计算机学院,广东 广州510006)
摘要:DBSCAN算法是一种典型的基于密度的聚类算法,具有速度快、可以发现噪声的优点,但在处理大规模数据
时出现聚类效率低、内存和I/O消耗大、聚类精度降低的问题,集群式计算机技术特别是云计算技术的发展提供了
解决DBSCAN算法缺陷的方案.文中提出了数据预分区的并行PMDBSCAN算法,该算法在聚类之前对数据分区预
处理,利用并行编程模型MapReduce实现DBSCAN算法并行化,结合重叠分区思想,减少I/O消耗.实验结果表明,
在大规模数据集上,PMDBSCAN算法聚类有效提高了聚类的速度、减少了I/O消耗、改善了聚类的质量.
关键词:大规模数据库;DBSCAN算法;重叠分区;映射/归约
中图分类号:TP3115 文献标志码:A 文章编号:10077162(2016)01005106
ParallelDBSCANAlgorithmBasedonCloudComputingPlatform
CaiYongqiang,ChenPinghua,LiHui
(SchoolofComputers,GuangdongUniversityofTechnology,Guangzhou510006,China)
Abstract:Asatypicalrepresentativeofclusteringalgorithm,DBSCANalgorithmhastheadvantagesof
fastspeedandhelpstofindthenoiseofdata.However,inbigdataprocessing,thereareproblemsoflow
clusteringefficiency,highmemoryandI/Orequirement,andpoorclusteringprecision.Withthesupport
ofclustercomputertechnologyespeciallythedevelopmentofcloudcomputing,thesolutionstotheprob
lemsofDBSCANalgorithmmentionedabovecanbeprovidedandprogressedsignificantly.Thispaper
proposesaparallelPMDBSCANalgorithmbasedondatapartitionwhichcanpreprocessdatapartitionbe
foreclustering,realizeparallelizationofDBSCANalgorithmbyparallelprogrammingmodelMapReduce,
andreduceI/Oconsumptionaccordingtooverlappingpartition.Theresultsshowthatindealingwith
largescaledatathePMDBSCANalgorithmincreasesthespeedofclustering,reducesI/Oconsumption
andimprovesclusterqualitysignificantly.
Keywords:largescaledatabase;DBSCANalgorithm;dataover
您可能关注的文档
- 基于PML边界下的弹性及黏弹性TTI介质波场模拟-物理化学学报.PDF
- 基于PVDF的微力传感器设计-中国科学院沈阳自动化研究所.PDF
- 基于Proteus的气压报警系统设计-电子设计工程.PDF
- 基于rDNA-ITS序列的中国球盖菇科分子系统学.PDF
- 基于SCAP框架的信息系统安全基线技术研究与应用.PDF
- 基于SimpliciTI协议的智能窗系统的设计-电子设计工程.PDF
- 基于SOD-IRK的大规模时滞电力系统特征值计算方法-电力系统自动化.PDF
- 基于SIFT特征向量的图像检索优化-应用数学和力学.PDF
- 基于SPI指数的内蒙古干旱时空分布特征研究.PDF
- 基于SPEI和SPI指数的太原多尺度干旱特征与气候-生态环境学报.PDF
- 基于云证据理论的地铁盾构施工临近建筑物变形安全-安全与环境工程.PDF
- 基于互信息的二阶共现概念相关度研究.PDF
- 基于互相关的有效奇异值消噪方法-计算机工程与应用.PDF
- 基于五大类使用主体的秦岭绿道示范段使用后-西安建筑科技大学学报.PDF
- 基于交叉增益调制的全光单边带上变频研究-激光与红外.PDF
- 基于交错网格的纵横波波场分离数值模拟方法-工业技术创新.PDF
- 基于以太网和RS485总线的小型微网控制系统设计-云南大学.PDF
- 基于亮度保持的子图像加权对比度增强-电子学报.PDF
- 基于介词向量的英语真词错误检查算法-计算机系统应用.PDF
- 基于传声器阵列的汽车鸣笛声定位算法及实现-噪声与振动控制-上海.PDF
文档评论(0)