dbscan密度聚类简介(pso优化).docxVIP

下载本文档

40
0
约1.69千字
约 4页
2016-08-06 发布于安徽
举报
版权申诉

dbscan密度聚类简介(pso优化).docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

dbscan密度聚类简介(pso优化).docx

Dbscan简介DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。DBSCAN中的几个定义：Ε邻域：给定对象半径为Ε内的区域称为该对象的Ε邻域；核心对象：如果给定对象Ε领域内的样本点数大于等于MinPts，则称该对象为核心对象；直接密度可达：对于样本集合D，如果样本点q在p的Ε领域内，并且p为核心对象，那么对象q从对象p直接密度可达。密度可达：对于样本集合D，给定一串样本点p1,p2….pn，p= p1,q= pn,假如对象pi从pi-1直接密度可达，那么对象q从对象p密度可达。密度相连：存在样本集合D中的一点o，如果对象o到对象p和对象q都是密度可达的，那么p和q密度相联。核心点：在半径Eps之内，数目超过MinPts数目的点称为核心点边界点：在半径Eps之内，点的数目小于MinPts，但是在Eps之内有核心点，这样的点称为边界点。噪声点：不是核心点或边界点的点可以发现，密度可达是直接密度可达的传递闭包，并且这种关系是非对称的。密度相连是对称关系。DBSCAN目的是找到密度相连对象的最大集合。DBSCAN算法描述:输入: 包含n个对象的数据库，半径e，最少数目MinPts;输出:所有生成的簇，达到密度要求。(1)Repeat(2)从数据库中抽出一个未处理的点；(3)IF抽出的点是核心点 THEN 找出所有从该点密度可达的对象，形成一个簇；(4)ELSE 抽出的点是边缘点(非核心对象)，跳出本次循环，寻找下一个点；(5)UNTIL 所有的点都被处理。DBSCAN对用户定义的参数很敏感，细微的不同都可能导致差别很大的结果，而参数的选择无规律可循，只能靠经验确定。具体算法描述如下：（1）检测数据库中尚未检查过的对象p，如果p未被处理(归为某个簇或者标记为噪声)，则检查其邻域，若包含的对象数不小于minPts，建立新簇C，将其中的所有点加入候选集N；（2）对候选集N 中所有尚未被处理的对象q，检查其邻域，若至少包含minPts个对象，则将这些对象加入N；如果q 未归入任何一个簇，则将q 加入C；（3）重复步骤2)，继续检查N 中未处理的对象，当前候选集N为空；（4）重复步骤1)~3)，直到所有对象都归入了某个簇或标记为噪声。（即核心点与它周围的点都被分到一族，边界点被分到它周围的点所在的族）Pso优化Eps由于DBSCAN对用户定义的参数很敏感，细微的不同都可能导致差别很大的结果，而参数的选择无规律可循，只能靠经验确定。王纵虎在论文《聚类分析优化关键技术》中提出将算法与粒子群优化算法有机结合，提出一种新的自动确定参数的方法。首先固定对聚类结果敏感度相对较低的MinPts的值，根据输入的聚类个数，通过粒子群优化搜索自动确定最合适的Eps值，同时获得个聚类划分，不需要再绘制图来确定，提高了算法的聚类能力。其中粒子群优化中使用的适应度函数为,其中N是算法聚类结果生成的类族数目，K是期望聚类个数。Pso简介：粒子群算法的基本流程 Step1：初始化：在 d 维的问题空间中随机产生粒子的位置和速度； Step2：位置评价：每个粒子用构造的位置目标函数对其进行评价； Step3：更新粒子的历史最优位置和群体的全局最优位置：比较粒子的位置评价值与它的历史位置最优值，如果优于该粒子的历史最优值，则用目前位置替代该粒子的历史最优位置；比较粒子的目前位置评价值与群体全局最优值，如果目前评价值好于群体全局最优值，则用目前值替换群体全局最优值。 Step4：更新粒子的位置和速度：按上面介绍的公式； Step5：循环终止条件：对每个粒子循环执行 Step2 到 Step4，直到满足循环终止条件，这里的循环终止条件和遗传算法类似，是迭代次数或者好的适应值。下图即为粒子群算法的流程框图：