2018年7月12日星期四 数据仓库与数据挖掘技术.ppt

2018年7月12日星期四 数据仓库与数据挖掘技术.ppt

  1. 1、本文档共89页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * 数据仓库与数据挖掘技术 * 什么是一个好的聚类方法? 一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点: 高的簇内相似性 低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现; 聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式; * 数据仓库与数据挖掘技术 * Major Clustering Approaches Partitioning algorithms: Construct various partitions and then evaluate them by some criterion Hierarchy algorithms: Create a hierarchical decomposition of the set of data (or objects) using some criterion Density-based: based on connectivity and density functions Grid-based: based on a multiple-level granularity structure Model-based: A model is hypothesized for each of the clusters and the idea is to find the best fit of that model to each other * 数据仓库与数据挖掘技术 * 划分方法: 基本概念 划分方法: 将一个包含n个数据对象的数据库组织成k个划分(k<=n),其中每个划分代表一个簇(Cluster)。 给定一个k,要构造出k个簇,并满足采用的划分准则: 全局最优:尽可能的列举所有的划分; 启发式方法: k-平均和k-中心点算法 k-平均 (MacQueen’67):由簇的中心来代表簇; k-中心点或 PAM (Partition around medoids) (Kaufman & Rousseeuw’87): 每个簇由簇中的某个数据对象来代表。 * 数据仓库与数据挖掘技术 * K-平均算法 给定k,算法的处理流程如下: 1.随机的把所有对象分配到k个非空的簇中; 2.计算每个簇的平均值,并用该平均值代表相应的簇; 3.将每个对象根据其与各个簇中心的距离,重新分配到与它最近的簇中; 4.回到第二步,直到不再有新的分配发生。 * 数据仓库与数据挖掘技术 * K-平均算法 例子 * 数据仓库与数据挖掘技术 * K-平均算法 优点 相对高效的: 算法复杂度O(tkn), 其中n 是数据对象的个数, k 是簇的个数, t是迭代的次数,通常k, t << n. 算法通常终止于局部最优解; 缺点 只有当平均值有意义的情况下才能使用,对于类别字段不适用; 必须事先给定要生成的簇的个数; 对“噪声”和异常数据敏感; 不能发现非凸面形状的数据。 * 数据仓库与数据挖掘技术 * K-平均算法的变种 一些变种在下面几个方面有所不同: 初始k个平均值的选择; 相异度的计算; 计算簇的平均值的策略; 处理种类字段: k-模算法 (Huang’98) 用模来替代平均值; 用新的相异度计算方法来处理类别字段; 用基于频率的方法来修改簇的模; k-原型算法:综合k-平均和k-模算法,能同时处理类别字段和数值字段。 * 数据仓库与数据挖掘技术 * K-中心点算法 找出簇中位置最中心的对象,即中心点来代表簇 PAM (Partitioning Around Medoids, 1987) 设定一个中心点的初始集合,然后反复的用非中心点对象来替代中心点对象,以改进聚类的质量; PAM 算法在大数据集上效率较低,没有良好的可伸缩性; CLARA (Kaufmann & Rousseeuw, 1990) CLARANS (Ng & Han, 1994): Randomized sampling * 数据仓库与数据挖掘技术 * 层次方法 采用距离作为衡量聚类的标准。该方法不在需要指定聚类的个数,但用户可以指定希望得到的簇的数目作为一个结束条件。 Step 0 Step 1 Step 2 Step 3 Step 4 b d c e a a b d e c d e a b c d e Step 4 Step 3 Step 2 Step 1 Step 0 agglomerative (AGNES) divisive (DIANA) * 数据仓库与数据挖掘技术 * AGNES (Agglomerative Nesting) 由 Kaufmann 和 Rousseeuw 提出;(1990) 使用单链接方法和差异度

文档评论(0)

118lingling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档