数据挖掘课件数据挖掘8章聚类幻灯片.ppt

数据挖掘课件数据挖掘8章聚类幻灯片.ppt

  1. 1、本文档共118页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * Data Mining: Concepts and Techniques * 主要步骤 1.将数据空间划分为互不相交的长方形单元,记录每个单元里的对象数 2.用先验性质识别包含簇的子空间 3.识别簇: 在符合兴趣度的子空间中找出密集单元 在符合兴趣度的子空间中找出相连的密集单元 4.为每个簇生成最小化的描述 先验性质:如果一个K维单元是密集的,那么它在k-1空间上的投影也是密集的。即给定一个k维的侯选密集单元,如果检查它的k-1维投影空间,发现任何一个不是密集的,那么知道第k维的单元也不可能是密集的。 * Data Mining: Concepts and Techniques * Salary (10,000) Vacation(week) 20 30 40 50 60 age 5 4 3 1 2 6 7 0 20 30 40 50 60 age 5 4 3 1 2 6 7 0 age Vacation Salary 30 50 ? = 3 关于age对salary和vocation维的密集单元,这些密集单元相交形成更高维度密集单元的一个侯选搜索空间 * Data Mining: Concepts and Techniques * 有效性和缺点 自动地发现最高维的子空间,高密度聚类存在于这些子空间中。 对元组的输入顺序不敏感,无需假设任何规范的数据分布 随输入数据的大小线形地扩展,当数据的维数增加时具有良好的可伸缩性 聚类结果的精确度降低 * Data Mining: Concepts and Techniques * Chapter 8. Cluster Analysis 基于密度的方法 DBSCAN OPTICS DENCLUE 基于网格的方法 STING WaveCluster CLIQUE 基于模型的方法 统计学方法 神经网络方法 孤立点分析 小结 * Data Mining: Concepts and Techniques * 8.8基于模型的聚类方法 试图优化给定的数据和某些数学模型之间的适应性 假设:数据是根据潜在的概率分布生成的 统计学方法 神经网络方法 * Data Mining: Concepts and Techniques * 统计学方法 概念聚类 机器学习中的一种聚类方法,给出一组未标记的对象。 产生对象的一个分类模式 为每组对象发现了特征描述(分类) COBWEB 简单增量概念聚类算法 以分类树的形式创建层次聚类 每个节点代表一个概念,包含对概念的概率描述 * Data Mining: Concepts and Techniques * 分类效用(Category Utility) 概率表示 类内相似性。该值越大,共享该属性-值对的类成员比例就更大。 概率表示 类间相异性。该值越大,在对照类中共享该属性-值对的类成员比例就更大。 分类效用: N是在树的某个层次上形成的一个划分{C1,C2,…,Ck}的节点、概念或“种类”的数目。 在给定的划分中能够正确猜测期望的属性值的数目中,分类效用是随没有此种知识时期望的正确猜测的树木而增加的。 * Data Mining: Concepts and Techniques * COBWEB:分类树 * Data Mining: Concepts and Techniques * 分类树的节点插入 将对象临时置于每个节点,并计算结果划分的分类效用。产生最高分类效用的位置是对象节点的好的选择 计算为给定对象创建一个新的节点所产生的分类效用,与基于现存节点的计算相比较。 根据产生最高效用的划分,对象被置于一个已存在的类,或者为它创建一个新类。 * Data Mining: Concepts and Techniques * 优缺点 假设每个属性上的概率分布是彼此独立的。 聚类的概率分布表示使得更新和存储聚类相当昂贵 时间和空间复杂度取决于属性的数目、每个属性的值的数目 对偏斜的数据输入不是高度平衡的,可能导致空间和时间复杂性的剧烈变化 不适合大数据库 * Data Mining: Concepts and Techniques * 神经网络方法 将每个簇描述为一个标本(examplar),作为聚类的原型 根据某些距离度量,新的对象被分配给标本与其最相似的簇 竞争学习(competitive learning) 自组织特征映射 * Data Mining: Concepts and Techniques * 竞争学习 采用了若干个单元的层次结构(神经元) 神经元以一种“胜者全取”的方式对系统当前处理的对象进行竞争 1.激发式的连接(excitatory):在某个给定层次中的单元可以接收来自低一

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档