数据挖掘课件数据挖掘8章聚类幻灯片.ppt

下载文档

12
0
约2.19万字
约 118页
2018-03-26 发布于广东
举报
版权申诉
保障服务

数据挖掘课件数据挖掘8章聚类幻灯片.ppt

1、本文档共118页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * * Data Mining: Concepts and Techniques * 主要步骤 1.将数据空间划分为互不相交的长方形单元，记录每个单元里的对象数 2.用先验性质识别包含簇的子空间 3.识别簇：在符合兴趣度的子空间中找出密集单元在符合兴趣度的子空间中找出相连的密集单元 4.为每个簇生成最小化的描述先验性质：如果一个K维单元是密集的，那么它在k-1空间上的投影也是密集的。即给定一个k维的侯选密集单元，如果检查它的k-1维投影空间，发现任何一个不是密集的，那么知道第k维的单元也不可能是密集的。 * Data Mining: Concepts and Techniques * Salary (10,000) Vacation(week) 20 30 40 50 60 age 5 4 3 1 2 6 7 0 20 30 40 50 60 age 5 4 3 1 2 6 7 0 age Vacation Salary 30 50 ? = 3 关于age对salary和vocation维的密集单元，这些密集单元相交形成更高维度密集单元的一个侯选搜索空间 * Data Mining: Concepts and Techniques * 有效性和缺点自动地发现最高维的子空间，高密度聚类存在于这些子空间中。对元组的输入顺序不敏感，无需假设任何规范的数据分布随输入数据的大小线形地扩展，当数据的维数增加时具有良好的可伸缩性聚类结果的精确度降低 * Data Mining: Concepts and Techniques * Chapter 8. Cluster Analysis 基于密度的方法 DBSCAN OPTICS DENCLUE 基于网格的方法 STING WaveCluster CLIQUE 基于模型的方法统计学方法神经网络方法孤立点分析小结 * Data Mining: Concepts and Techniques * 8.8基于模型的聚类方法试图优化给定的数据和某些数学模型之间的适应性假设：数据是根据潜在的概率分布生成的统计学方法神经网络方法 * Data Mining: Concepts and Techniques * 统计学方法概念聚类机器学习中的一种聚类方法，给出一组未标记的对象。产生对象的一个分类模式为每组对象发现了特征描述（分类） COBWEB 简单增量概念聚类算法以分类树的形式创建层次聚类每个节点代表一个概念，包含对概念的概率描述 * Data Mining: Concepts and Techniques * 分类效用(Category Utility) 概率表示类内相似性。该值越大，共享该属性-值对的类成员比例就更大。概率表示类间相异性。该值越大，在对照类中共享该属性-值对的类成员比例就更大。分类效用： N是在树的某个层次上形成的一个划分{C1,C2,…,Ck}的节点、概念或“种类”的数目。在给定的划分中能够正确猜测期望的属性值的数目中，分类效用是随没有此种知识时期望的正确猜测的树木而增加的。 * Data Mining: Concepts and Techniques * COBWEB：分类树 * Data Mining: Concepts and Techniques * 分类树的节点插入将对象临时置于每个节点，并计算结果划分的分类效用。产生最高分类效用的位置是对象节点的好的选择计算为给定对象创建一个新的节点所产生的分类效用，与基于现存节点的计算相比较。根据产生最高效用的划分，对象被置于一个已存在的类，或者为它创建一个新类。 * Data Mining: Concepts and Techniques * 优缺点假设每个属性上的概率分布是彼此独立的。聚类的概率分布表示使得更新和存储聚类相当昂贵时间和空间复杂度取决于属性的数目、每个属性的值的数目对偏斜的数据输入不是高度平衡的，可能导致空间和时间复杂性的剧烈变化不适合大数据库 * Data Mining: Concepts and Techniques * 神经网络方法将每个簇描述为一个标本（examplar），作为聚类的原型根据某些距离度量，新的对象被分配给标本与其最相似的簇竞争学习(competitive learning) 自组织特征映射 * Data Mining: Concepts and Techniques * 竞争学习采用了若干个单元的层次结构（神经元）神经元以一种“胜者全取”的方式对系统当前处理的对象进行竞争 1.激发式的连接（excitatory）：在某个给定层次中的单元可以接收来自低一