- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于MapReduceDBSCAN聚类算法并行实现
基于MapReduceDBSCAN聚类算法并行实现
摘要:DBSCAN是一种简单、有效的基于密度的聚类算法,用于寻找被低密度区域分离的高密度区域。DBSCAN是最经常被使用、在科学文献中被引用最多的聚类算法之一。在数据维度比较高的情况下, DBSCAN的时间复杂度为[O(n2)]。然而,在现实世界中,数据集的大小已经增长到超大规模。对此,一个有效率的并行的DBSCAN算法被提出,并在MapReduce平台下实现它。首先,对已经预处理过的数据进行划分。接下来,局部的DBSCAN算法将对每一块划分好的数据空间实现聚类。最终,利用合并算法对上一阶段的聚类结果进行合并。实验结果验证了并行算法的有效性。
关键词:DBSCAN; MapReduce; 聚类算法; 并行算法; 数据挖掘
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2015)10-0161-04
DBSCAN[1]于1996年被提出以后便被广泛使用。DBSCAN基本时间复杂度是(n*找出样本点的Eps邻域中的点所需要的时间),其中n是样本点的大小。低维数据空间下,利用一些空间索引结构,如kd树[2]、R树[3]、R*树[4]等,时间复杂度可以降到[Onlogn].高维数据空间下,DBSCAN的时间复杂度为[O(n2)]。PDBSCAN[5]首次采用dR*-tree提出了一个有效的DBSCAN并行算法。然而,创建dR*-tree在海量数据情况下非常的困难,而在数据是高纬度时则毫无效率。MR-DBSCAN[6]提出了基于MapReduce[7]平台下的DBSCAN并行算法。MR-DBSCAN提出了巧妙的数据划分方法,很好的解决了在海量的低维度的数据集进行数据划分时可能产生的负载平衡问题。然而这两个算法均无法有效处理海量的高纬度的数据集。通过对这两个算法进行改进,结合它们的优点,提出了一个适用于海量的高纬度的数据集的DBSCAN并行算法。DBSCAN并行算法分为四阶段。首先,选择数据在选中二维上的划分点。在选中的维度上,依据该维的数据域,将数据分成m份,记下每份数据的点的数目,之后从这m份数据的边界点中选出a个作为划分点。然后,根据各个维的划分点,得到了数据划分。接着,调整得到的数据划分作为局部DBSCAN算法的输入,实施局部DBSCAN算法。最后,利用合并算法对上一阶段的聚类结果进行合并。
1 DBSCAN算法介绍
1.1 DBSCAN的簇
DBSCAN聚类算法需要用户自己确定两个参数Eps和MinPts。其中,Eps为用户定义的半径,MinPts为定义一个点为核心点时其邻域内要求的最少点数。点的邻域的定义将在下文阐述。在给出DBSCAN的簇的定义之前,我们需要知道如下的一些定义:
定义1:(点p的Εps邻域)用NEps(P) 表示点P的Εps邻域,dist(p,q)表示点p、q之间的距离,则点P的Εps邻域定义为NEps(p) = {q? D | dist(p,q) ? Eps}。即点p的Εps邻域为所有与点p的距离不大于Eps的点的集合。
对于簇C,要求对于在簇C中的每一点p,则在簇C中存在一点q,p在点q的Eps邻域内,且q的Εps邻域内的点数=MinPts.我们在给出簇的详细的定义之前,先给出下面一些概念和定义。
若点p的Eps邻域的点数=MinPts,则点p为核心点。点q的Eps邻域的点数MinPts,但它落在某个核心点的邻域内,就称点q为边界点。
定义2:(直接密度可达)点p从点q直接密度可达仅当:
1) p?NEps(q)
2) |NEps(q)|≥MinPts(核心点条件)
定义3:(密度可达)如果存在一串样本点p1,p2….pn,p1=q, pn=p,假如点pi+1从pi直接密度可达,那么点p从点q密度可达。
在上面我们提过,对于簇C中的任意一点,它必处在一个核心点的邻域中,可以证明,对于同个簇C中的两个边界点,必存在同一个核心点,使得它们同时从该核心点密度可达。为了能够表达这种关系,我们引入了密度相连的定义。
定义4:(密度相连)如果存在任意一点o,点p从点o密度可达,并且点q从点o密度可达,那么点q到点p密度相连。
现在我们可以对簇进行定义了。噪声集可以定义为不在所有簇中的点的集合。
定义5:(簇)D为样本点集,簇C是D的一个非空子集且满足如下条件:
1)点p,q:如果p?C且q从p密度可达,则q?C。
2)点p,q?C:p与q密度相连。
定义6:(噪声集)C1,…,CK为样本点集D下满足条件Epsi和MinPtsi,i=1,…,k下的簇。噪声集是D中不属于任何Ci的点的集合,表示为noise={p?D|i
您可能关注的文档
最近下载
- 阿法拉伐分油机中文说明Instruction book1.pdf VIP
- 《Java程序设计》教案(思政版).docx VIP
- 四年级上册数学《三位数乘两位数的笔算乘法》(共18张PPT).pptx VIP
- AWS B4.0-2016 焊缝机械测试的标准方法(中文版).pdf
- 《绩效与薪酬管理》课程教学大纲(中文).docx VIP
- 国开电大学习网网络安全技术形考任务答案.pdf VIP
- 成长赛道飞机机电设备维修专业1500字.pptx VIP
- 从业人员食品安全知识培训计划及培训考核记录.docx VIP
- GB50641-2010 有色金属矿山井巷安装工程施工规范.docx VIP
- 胃癌根治术的手术护理查房2讲课文档.ppt VIP
文档评论(0)