- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章 聚类分析 第七章 目录 7.1 概述 7.2 K均值算法 7.3 BIRCH算法 7.4 DBSCAN算法 7.5 STING算法 7.6 EM算法 7.7 本章小结 定理7.1 给定ε,MinPts及数据对象集合D,满足如下条件的D的非空子集O是关于ε和MinPts的簇: O={o|p,o∈D, ,o是从p出发关于ε和MinPts密度可达的} 证明: ① 连通性。 对于任意的r , t∈O,因为r,t都是从p出发关于ε和 MinPts密度可达的,所以,r与t是关于ε和MinPts密度相连的。 7.4.1 相关概念(6) ② 极大性。 对于任意的r、t,因为 如果r∈O,则r是从p出发关于ε和MinPts密度可达的。 如果t是从r出发关于ε和MinPts密度可达的,则t是从p出 发关于ε和MinPts密度可达的。 所以 t∈O。 7.4.1 相关概念(7) 定理7.2 给定ε,MinPts及数据对象集合D,某个关于ε和MinPts的簇C等于满足如下条件的D的非空子集O: O={o| p∈C , ,o∈D , o是从p出发关于ε和MinPts密度可达的} 证明: ① C ? O 对于任意q∈C,因为p∈C,所以,根据簇的连通性,p与q是关于ε和MinPts密度相连的,即存在r满足p与q都是从r出发关于ε和MinPts密度可达的。 又因为|N?(p)|?Minpts,所以,r是从p出发关于ε和MinPts密度可达的,q是从p出发关于ε和MinPts密度可达的,即q∈O 7.4.1 相关概念(8) ② O ? C 对于任意q∈O,因为q是从p出发关于ε和MinPts密度可达的。又因为 p∈C 所以,根据簇的极大性,q∈C。 定理7.1和7.2可以证实DBSCAN聚类算法的正确性。 7.4.1 相关概念(9) 基本思想是:首先,选取一个未标记类别的核心对象,并创建一个新簇;然后,寻找所有从该核心对象出发关于ε和MinPts密度可达的对象,并标记为该簇。重复这个过程,直至处理完所有对象,即没有未标记簇的核心对象。 算法:DBSCAN(D,ε,MinPts) 输入:数据对象集合D,邻域半径ε,最小对象数目MinPts 输出:关于ε和MinPts的所有簇 7.4.2 DBSCAN算法(1) 步骤: (1) 初始化类别标记Cid; (2) for D中的每个数据对象p (2.1) if p是未标记类别的数据对象 then (2.1.1)if p不是核心对象 then 将p标记为噪声 (2.1.2)else 将p标记为Cid 将所有从p出发关于ε和MinPts直接密度可达的标记为噪声的数据对象标记为Cid 将所有从p出发关于ε和MinPts直接密度可达的未标记的数据对象标记为Cid,并放入队列Q中。 //寻找所有从p出发关于ε和MinPts密度可达的数据对象 7.4.2 DBSCAN算法(2) while Q不空 从Q中取出队头数据对象o if o是核心对象 then 将所有从o出发关于ε和MinPts直接密度可达的标记为噪声的数据对象标记为Cid 将所有从o出发关于ε和MinPts直接密度可达的未标记的数据对象标记为Cid,并放入队列Q中; 改变类别标记Cid; 7.4.2 DBSCAN算法(3) 不使用索引时,DBSCAN的计算复杂度是O(n2);使用索引时,其计算复杂度为O(nlogn),其中n是数据集D中的对象数目。DBSCAN的最大优点是能在具有噪声的空间数据库中发现任意形状的簇,对噪声数据不敏感,但是它所使用的参数ε和MinPts是两个全局参数,这种全局密度参数往往不能刻画高维数据内在的聚类结构,因为真实的高维数据集常常具有非常倾斜的分布。同时,ε和MinPts的值需要用户输入,这也是一个比较困难的问题。 7.4.2 DBSCAN算法(4) 7.5 STING算法 7.5.1 层次结构 7.5.2 参数产生 7.5.3 查询类型 7.5.4 相关单元和非相关单元 7.5.5 STING算法 STING在划分矩形单元时,按照不同级别的分辨率进行多层划分。第一层是最高层,对应整个空间区域。每个高层单元划分为多个低一层的单元。
您可能关注的文档
- 资产评估理论与实务 作者 宋传联 ZCPG第五章.ppt
- 资产评估理论与实务 作者 宋传联 ZCPG第一章.ppt
- 资料 例7-1.ppt
- 自动变速器维护与维修 作者 赵计平 1.1自动变速器概述.ppt
- 自动化生产线安装与调试 作者 何用辉项目4 任务三 PPI通信实现自动化生产线联机调试.ppt
- 自动化生产线安装与调试 作者 何用辉项目4 任务一 自动化生产线机械结构调整知识与能力目标.ppt
- 自动检测技术实用教程 作者 周征 第4章 流量传感器.ppt
- 自动控制技术项目教程 作者 贺力克 第7章直流调速系统.ppt
- 自动控制原理 第3版 作者 孙炳达 第1章.ppt
- 自动控制原理 上 作者 谢昭莉 第4章.ppt
- 绿电2022年系列报告之一:业绩利空释放,改革推动业绩反转和确定成长.docx
- 化学化工行业数字化转型ERP项目企业信息化规划实施方案.pdf
- 【研报】三部门绿电交易政策解读:溢价等额冲抵补贴,绿电交易规模有望提升---国海证券.docx
- 中国债券市场的未来.pdf
- 绿电制绿氢:实现“双碳”目标的有力武器-华创证券.docx
- 【深度分析】浅析绿证、配额制和碳交易市场对电力行业影响-长城证券.docx
- 绿电:景气度+集中度+盈利性均提升,资源获取和运营管理是核心壁垒.docx
- 节电产业与绿电应用年度报告(2022年版)摘要版--节能协会.docx
- 2024年中国人工智能系列白皮书-智能系统工程.pdf
- 如何进行行业研究 ——以幼教产业为例.pdf
文档评论(0)