- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1、什么是聚类分析 2、相似性度量 3、聚类方法的评价 4、聚类方法的类型 5、聚类分析应用 8.2 聚类分析 1、什么是聚类分析? 聚类分析将数据划分成有意义或有用的组(簇)。 聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的。 Inter-cluster distances are maximized Intra-cluster distances are minimized 2、对象之间的距离与相似性度量 相似性 3、聚类方法的评价 一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点: 高的簇内相似性 低的簇间相似性 聚类结果的质量评价准则: 内部质量评价准则 外部质量评价准则 内部质量评价准则 该准则是利用数据集的固有特征和量值来评价一个聚类算法的结果,通过计算簇内平均相似度、簇间平均相似度和整体相似度来评价聚类结果。 例如:CH指标(最小的簇内距离和最大的簇间距离) z是整个数据集的均值,zi是每个簇的均值. CH值越大表示聚类效果越好。 外部质量评价准则 外部质量评价指标如聚类熵,首先计算每个簇的信息熵,然后求所有簇的熵。熵值越小表示聚类效果越好。 Nij表示Ci中包含第j类样本数.s是样本集中包含的类别数. k为簇的数量. 4、聚类方法的类型 划分法:基于一定标准构建数据的划分 层次法:进行层次分解 密度法:基于对象的相连密度评价 网格法:基于网格结构进行聚类 模型法:给每个簇假定一个模型,寻找能很好地满足这个模型的数据集 (1) 划分聚类(Partitional Clustering) 划分聚类预先指定聚类数目或聚类中心,通过反复迭代运算,逐步优化目标函数的值,当目标函数收敛时或聚类中心不再改变时,算法结束。 例如:k-mean聚类 K-mean算法 选择k个点作为初始的质心 repeat 将每个点指派到最近的质心,形成k个簇 重新计算每个簇的质心 until 质心不发生变化或者目标函数收敛 实例 要进行聚类的元组为 {2,4,10,12,3,20,30,11,25} K means 的优点与缺点 优点: 算法简单 适用于球形簇 缺点: 不能处理非球形簇、不同尺寸和不同密度的簇 对离群点、噪声敏感 Limitations of K-means: Differing Sizes Original Points K-means (3 Clusters) Limitations of K-means: Differing Density Original Points K-means (3 Clusters) Limitations of K-means: Non-globular Shapes Original Points K-means (2 Clusters) K-means 局限性的克服 Original Points K-means Clusters One solution is to use many clusters. Find parts of clusters, but need to put together. Overcoming K-means Limitations Original Points K-means Clusters Overcoming K-means Limitations Original Points K-means Clusters (2) 层次聚类(Hierarchical Clustering) 层次聚类是嵌套簇的集族,它通过将数据对象组织成若干组并形成一棵树来进行聚类。 凝聚的和分裂的层次聚类 凝聚的层次聚类采用自底向上的策略,开始时把每个对象作为一个单独的簇,然后逐次对各个簇进行适当合并,直到满足某个终止条件。 分裂的层次聚类采用自顶向下的策略,与凝聚的层次聚类相反,开始时将所有对象置于同一个簇中,然后逐次将簇分裂为更小的簇,直到满足某个终止条件。 传统的算法利用相似性或相异性的临近度矩阵进行凝聚的或分裂的层次聚类。 凝聚的和分裂的层次聚类 (3) 基于密度的聚类方法 基本思想:只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。该方法从数据的分布密度出发,把密度足够大的区域连接起来,从而可发现任意形状的簇,并可以用来过滤噪声。 核心点与边界点 例如:DBSCAN算法 (i)标记核心点、边界点和噪声点 (ii)删除噪声点; (iii)选取一个未标记类别的核心点p,建立一个簇Ci。 (iv)
您可能关注的文档
- 2017年全区三季度政务公开推进会讲话稿.docx
- 2017年班子成员关于讲政治知敬畏守规矩发言稿.docx
- 2017年学院教务处工作计划.docx
- 2017年宣传部门工作计划.docx
- 2017年公管局工作总结.docx
- 2017年点赞中国 观后感精选.docx
- 2017年十三五全国计划生育事业发展规划.docx
- 2017年自查自纠报告范文.docx
- 2017年四个合格党性分析材料自我剖析.docx
- 2017年监察队落实党风廉政建设工作报告.docx
- 12盘古开天地 课件(共26张PPT).pptx
- 2022年高级美容师理论知识资格考试模拟试题库及答案.pdf
- 2021年12月全国大学英语CET六级真题和答案解析(第一套).pdf
- 2025[仓储租赁合同]租赁仓库合同范本.docx
- 2022年招警考试行测练习题库解析.pdf
- 高考日语综合复习五十音图部分总复习教案(2025—2026学年).docx
- 高一生物有氧呼吸和氧呼吸教案(2025—2026学年).docx
- 2022年环境影响评价师考试《案例分析》习题及答案汇总.pdf
- 2021年12月全国大学英语CET六级真题和答案解析(第二套).pdf
- 2022年执业药师药学专业知识一考题解析.pdf
最近下载
- 《咏物诗》-公开课件.ppt VIP
- 职称技术工作报告范文.docx VIP
- (2021年品管圈活动成果报告书)降低ICU患者身体约束率.docx VIP
- 解读学习2025《党政机关厉行节约反对浪费条例》培训课件.pptx VIP
- 品管圈QCC降低ICU患者约束缺陷率.pptx VIP
- 《党政机关厉行节约反对浪费条例》(2025)附新旧对照解读课件.pptx VIP
- 安徽单招考试2025、2025分类考试真题语文数学英语试题(含答案).pdf VIP
- 保证农民工工资及时支付的措施.docx VIP
- 2024届高考语文复习:诗歌鉴赏之题材 咏物言志诗 课件(共33张PPT).pptx VIP
- 手外伤急诊手术护理配合.pptx VIP
文档评论(0)