- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘原理及应用(第二版)_教学课件_ppt 作者 王丽珍 周丽华 陈红梅 第7章
第七章 聚类分析 第七章 目录 7.1 概述 7.2 K均值算法 7.3 BIRCH算法 7.4 DBSCAN算法 7.5 STING算法 7.6 EM算法 7.7 本章小结 定理7.1 给定ε,MinPts及数据对象集合D,满足如下条件的D的非空子集O是关于ε和MinPts的簇: O={o|p,o∈D, ,o是从p出发关于ε和MinPts密度可达的} 证明: ① 连通性。 对于任意的r , t∈O,因为r,t都是从p出发关于ε和 MinPts密度可达的,所以,r与t是关于ε和MinPts密度相连的。 7.4.1 相关概念(6) ② 极大性。 对于任意的r、t,因为 如果r∈O,则r是从p出发关于ε和MinPts密度可达的。 如果t是从r出发关于ε和MinPts密度可达的,则t是从p出 发关于ε和MinPts密度可达的。 所以 t∈O。 7.4.1 相关概念(7) 定理7.2 给定ε,MinPts及数据对象集合D,某个关于ε和MinPts的簇C等于满足如下条件的D的非空子集O: O={o| p∈C , ,o∈D , o是从p出发关于ε和MinPts密度可达的} 证明: ① C ? O 对于任意q∈C,因为p∈C,所以,根据簇的连通性,p与q是关于ε和MinPts密度相连的,即存在r满足p与q都是从r出发关于ε和MinPts密度可达的。 又因为|N?(p)|?Minpts,所以,r是从p出发关于ε和MinPts密度可达的,q是从p出发关于ε和MinPts密度可达的,即q∈O 7.4.1 相关概念(8) ② O ? C 对于任意q∈O,因为q是从p出发关于ε和MinPts密度可达的。又因为 p∈C 所以,根据簇的极大性,q∈C。 定理7.1和7.2可以证实DBSCAN聚类算法的正确性。 7.4.1 相关概念(9) 基本思想是:首先,选取一个未标记类别的核心对象,并创建一个新簇;然后,寻找所有从该核心对象出发关于ε和MinPts密度可达的对象,并标记为该簇。重复这个过程,直至处理完所有对象,即没有未标记簇的核心对象。 算法:DBSCAN(D,ε,MinPts) 输入:数据对象集合D,邻域半径ε,最小对象数目MinPts 输出:关于ε和MinPts的所有簇 7.4.2 DBSCAN算法(1) 步骤: (1) 初始化类别标记Cid; (2) for D中的每个数据对象p (2.1) if p是未标记类别的数据对象 then (2.1.1)if p不是核心对象 then 将p标记为噪声 (2.1.2)else 将p标记为Cid 将所有从p出发关于ε和MinPts直接密度可达的标记为噪声的数据对象标记为Cid 将所有从p出发关于ε和MinPts直接密度可达的未标记的数据对象标记为Cid,并放入队列Q中。 //寻找所有从p出发关于ε和MinPts密度可达的数据对象 7.4.2 DBSCAN算法(2) while Q不空 从Q中取出队头数据对象o if o是核心对象 then 将所有从o出发关于ε和MinPts直接密度可达的标记为噪声的数据对象标记为Cid 将所有从o出发关于ε和MinPts直接密度可达的未标记的数据对象标记为Cid,并放入队列Q中; 改变类别标记Cid; 7.4.2 DBSCAN算法(3) 不使用索引时,DBSCAN的计算复杂度是O(n2);使用索引时,其计算复杂度为O(nlogn),其中n是数据集D中的对象数目。DBSCAN的最大优点是能在具有噪声的空间数据库中发现任意形状的簇,对噪声数据不敏感,但是它所使用的参数ε和MinPts是两个全局参数,这种全局密度参数往往不能刻画高维数据内在的聚类结构,因为真实的高维数据集常常具有非常倾斜的分布。同时,ε和MinPts的值需要用户输入,这也是一个比较困难的问题。 7.4.2 DBSCAN算法(4) 7.5 STING算法 7.5.1 层次结构 7.5.2 参数产生 7.5.3 查询类型 7.5.4 相关单元和非相关单元 7.5.5 STING算法 STING在划分矩形单元时,按照不同级别的分辨率进行多层划分。第一层是最高层,对应整个空间区域。每个高层单元划分为多个低一层的单元。
您可能关注的文档
- 教科版五年级级科技学术上册《我们的小缆车》课件1652634914新版.ppt
- 教科版八年级思想政治上册_难报三春晖PPT课件.ppt
- 教科版品德与社会小学三年级下册主题一时光老人对我说PPT课件.ppt
- 教科版四年级一到三单元复习Microsoft_PowerPoint_演示文稿PPT课件.ppt
- 教科版六年级下册《初识scratch》课件.ppt
- 教科版八年级政治上册第五课第一框_男生女生之间PPT课件.ppt
- 教科版四年级上册《是乐谱错了》PPT课件.ppt
- 教科版六年级上册科学第一单位温习课件图文新版.ppt
- 教科版四年级科学上册课件云的观测4图文.ppt
- 教科版四年级科学上册课件云的观测4图文_1.ppt
- 数据仓库与数据挖掘原理及应用(第二版)_教学课件_ppt 作者 王丽珍 周丽华 陈红梅 第4章.ppt
- 数据仓库与数据挖掘原理及应用(第二版)_教学课件_ppt 作者 王丽珍 周丽华 陈红梅 第9章.ppt
- 数据仓库与数据挖掘原理及应用(第二版)_教学课件_ppt 作者 王丽珍 周丽华 陈红梅 第13章.ppt
- 数据仓库与数据挖掘课件ppt(精).ppt
- 数据仓库与数据挖掘课件ppt(精)_.ppt
- 数据仓库与数据挖掘课件_第二章_关联规则.ppt
- 数据仓库与数据挖掘课件_第八章_粗糙集.ppt
- 数据仓库与数据挖掘课件_第三章_聚类分析.ppt
- 数据仓库与数据挖掘课件_第九章_模糊集.ppt
- 数据仓库与数据挖掘课件PPT_6_Classification and .ppt
最近下载
- 时间域激电中梯、测深作业指导书.pdf VIP
- 2025年水利工程监理工作报告.pdf VIP
- 激电中梯、激电测深工作概要.pptx VIP
- 药物分析与常用组学技术在药学服务中的应用题库答案-2025年华医网继续教育.docx VIP
- 2025年杭州临安区公开招聘专职社区工作者和两新专职党务工作者35人笔试参考题库附答案解析.docx VIP
- 蒸馏法海水淡化阻垢剂性能评价方法 动态模拟试验法 编制说明.pdf VIP
- 无障碍设计PPT课件.ppt VIP
- CTD格式申报资料(原料药)新.pdf VIP
- 中小学心理健康教育指导纲要考试试题及答案.docx VIP
- 《无障碍设计原则》课件.ppt VIP
文档评论(0)