数据挖掘和分析9W9A精要.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘和分析9W9A精要.ppt

聚类分析 2014.12.30 第十九周 簇的确认 Cluster Validity 如何验证和评价聚类分析的结果? “goodness” of the resulting clusters? But “clusters are in the eye of the beholder”! 为何评价聚类分析的结果? 避免发现噪声产生的模式 比较不同的聚类算法 比较不同的簇集合 簇之间的比较 随机数据中被发现的簇 Clusters found in Random Data 簇确认的重要问题 Cluster Validation 确定数据集的聚类趋势 clustering tendency ,即是否存在非随机结构 确定正确的簇的个数. 评估聚类分析结果对数据的拟合情况 - Use only the data 将聚类分析的结果跟已知的客观结果(如,外部提供的类标号)比较 比较不同的聚类方法的优劣. 1,2,3 非监督 3,4,5 进一步区分是评估整个聚类还是单个簇 簇确认的度量 Measures of Cluster Validity 三种度量方式 外部指标 External Index: 监督的 Used to measure the extent to which cluster labels match externally supplied class labels. Entropy 熵 内部指标 Internal Index: 非监督的 Used to measure the goodness of a clustering structure without respect to external information. Sum of Squared Error (SSE) 相对指标 Relative Index: Used to compare two different clusterings or clusters. Often an external or internal index is used for this function, e.g., SSE or entropy Sometimes these are referred to as criteria instead of indices However, sometimes criterion is the general strategy and index is the numerical measure that implements the criterion. 非监督簇评估:通过相关 Via Correlation 两个矩阵 Two matrices 邻近性矩阵 Proximity Matrix 理想的邻近性矩阵 “Incidence” Matrix 每个数据点对应一行一列 矩阵中每项对应的两点如果是同簇,为1 否则为 0 计算两个矩阵的相关性 Since the matrices are symmetric, only the correlation between n(n-1) / 2 entries needs to be calculated. 高相关--簇中的点相近. Not a good measure for some density or contiguity based clusters. 非监督簇评估:通过相关 Correlation of incidence and proximity matrices for the K-means clusterings of the following two data sets. 通过相似性矩阵 根据簇对数据排序后的相似性矩阵 Order the similarity matrix with respect to cluster labels and inspect visually. 通过相似性矩阵 Clusters in random data are not so crisp 通过相似性矩阵 Clusters in random data are not so crisp 通过相似性矩阵 Clusters in random data are not so crisp 通过相似性矩阵 非监督的 Internal Measures: SSE Clusters in more complicated figures aren’t well separated 内部指标 Internal Index: 不需要外部信息Used to measure the goodness of a clustering structure wi

文档评论(0)

love + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档