08 聚类正式(学习资料).ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
08 聚类正式(学习资料)

* Data Mining: Concepts and Techniques * Basic Concepts Two parameters: 1. Eps (点P的邻域的ε半径):给定ε,我们可以找到落在点p半径ε内的近邻的数量。 Nε(p) ={q | q belongs to D ,dist(p,q) = Eps} 2. MinPts: 给定邻域Nε(p) 包含的点的最小数目. * Data Mining: Concepts and Techniques * Basic Concepts 核心对象:在其ε邻域范围内,具有至少MinPts个点,那么该点为核心对象。例ε=2,minpts=5。 边界对象:不满足上述条件为边界对象。 直接密度可达:(Directly density-reachable): A point p is directly density-reachable from a point q w.r.t. Eps, MinPts if p belongs to NEps(q) core point condition: |NEps (q)| = MinPts p q MinPts = 5 Eps = 1 cm * Data Mining: Concepts and Techniques * Density-Reachable 密度可达 密度可达:A point p is density-reachable from a point q w.r.t. Eps, MinPts if there is a chain of points p1, …, pn, p1 = q, pn = p such that pi+1 is directly density-reachable from pi 点P是由点q关于参数(ε,minpts)密度可达的,当且仅当存在由q开始的p1,p2,……,pn=p,满足pi+1是从pi直接密度可达的。 p q p1 * Data Mining: Concepts and Techniques * Density-Connected密度相连 A point p is density-connected to a point q w.r.t. Eps, MinPts if there is a point o such that both, p and q are density-reachable from o w.r.t. Eps and MinPts 密度相连:点p和点q是关于Eps, MinPts 密度相连的,当存在点O,使得p和q都是由点O关于Eps, MinPts 密度可达的。 噪声点:如果点P既不是核心对象 也不是其他点密度可达,就是噪声点 p q o * Data Mining: Concepts and Techniques * DBSCAN 算法 1 任意选择一点p 2 如果p没有被分簇,则检查他的核心点条件 3 如果p为核心点,找到p点的关于ε,minpts密度可达的点 4 用这些点形成一个簇,为每个点分配簇ID 5 如果p不为核心点,则访问数据点中的下一个点 6 循环该过程,直到处理完所有点 * Data Mining: Concepts and Techniques * DBSCAN 算法 * Data Mining: Concepts and Techniques * 案例 设ε=3,minpts=4,采用DBSCAN算法进行 随机选择一个点,例如NP={(3,1)} 由该点检查其紧邻点是否来自其ε邻域 尝试(2,2),两点距离为 ,因此加入到邻域范围内,成为新簇NP=={(3,1),(2,2)} 再尝试(3,4),计算距离,然后加入该簇 …… 对于簇中的任何点,在其邻域内找不到新点,则选择其他点重新开始该过程 * Data Mining: Concepts and Techniques * DBSCAN: Density Based Spatial Clustering of Applications with Noise Relies on a density-based notion of cluster: A cluster is defined as a maximal set of density-connected points Discovers clusters of arbitrary shape in spatial databases with noise Core Border Outlier Eps = 1cm MinPts = 5 * Data Mining: Concepts and Techniq

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档