浙江大学王灿《数据挖掘》课程聚类分析.pptVIP

下载本文档

7
0
约5.95千字
约 38页
2017-08-25 发布于广东
举报
版权申诉

浙江大学王灿《数据挖掘》课程聚类分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浙江大学王灿《数据挖掘》课程聚类分析

k中心点方法步骤 k中心点方法仍然基于最小化所有对象与其对应的参照点之间的相异度之和原则，使用的是绝对误差标准 (p是空间中的点，代表簇Cj中一个给定对象；oj是簇Cj中的代表对象) 通常该算法重复迭代，直到每个代表对象都成为它的簇的实际中心点首先随意选择初始代表对象只要能够提高结果聚类质量，迭代过程就使用非代表对象替换代表对象聚类结果的质量用代价函数评估，该函数度量对象与其簇的代表对象之间的平均差异度 k中心点方法---代表对象替换 (1) + Oi + Oj p + Orandom 1. 重新分配给Oi + Oi + Oj p + Orandom 2. 重新分配给Orandom + Oi + Oj p + Orandom 3. 不发生变化 + Oi + Oj p + Orandom 4. 重新分配给Orandom 为了确定非代表对象Orandom是否能够替代当前代表对象Oj，对于每一个非代表对象p，考虑四种情况 k中心点方法---代表对象替换 (2) 重新分配将对代价函数产生影响，如果当前的代表对象被非代表对象所取代，代价函数就是计算绝对误差值的差变换的总代价是所有非代表对象所产生的代价之和总代价为负，实际的绝对误差E将减少，Oj可以被Orandom所取代总代价为正，则本次迭代没有变化 k均值方法与k中心点方法比较当存在噪声和离群点时，k中心点方法比k均值方法更加鲁棒中心点较少的受离群点影响 k中心点方法的执行代价比k均值方法要高 k均值方法： O(nkt) k中心点方法：O(k(n-k)2) n与k较大时，k中心点方法的执行代价很高两种方法都要用户指定簇的数目k 离群点分析什么是离群点？一个数据集与其他数据有着显著区别的数据对象的集合例如：运动员：Michael Jordon, 舒马赫，布勃卡离群点产生原因度量或执行错误（年龄：-999）数据变异的结果离群点挖掘给定一个n个数据对象的集合，以及预期的离群点数目k，发现与剩余的数据有着显著差异的头k个数据对象应用欺诈检测、医疗中的异常分析等基于统计的离群点检测统计的方法对于给定的数据集合假定了一个分布或概率模型（例如正态分布）使用依赖于以下参数的不一致性检验（discordancy tests）数据分布分布参数（e.g. 均值或方差）预期的离群点数缺点绝大多数检验是针对单个属性的，而数据挖掘要求在多维空间中发现离群点大部分情况下，数据分布可能是未知的基于距离的离群点检测为了解决统计学方法带来的一些限制，引入了基于距离的离群点检测在不知道数据分布的情况下对数据进行多维分析基于距离的离群点：即DB(p,d)，如果数据集合S中的对象至少有p部分与对象o的距离大于d，则对象o就是DB(p,d)。挖掘基于距离的离群点的高效算法：基于索引的算法嵌套－循环算法基于单元的算法基于偏离的离群点检测通过检查一组对象的主要特征来确立离群点跟主要特征的描述相“偏离”的对象被认为是离群点两种基于偏离的离群点探测技术序列异常技术模仿人类从一系列推测类似的对象中识别异常对象的方式 OLAP数据立方体技术在大规模的多维数据中采用数据立方体来确定异常区域。如果一个立方体的单元值显著的不同于根据统计模型得到的期望值，则改单元值被认为是一个异常，并用可视化技术表示。 * 聚类分析什么是聚类分析？聚类（簇）：数据对象的集合在同一个聚类（簇）中的对象彼此相似不同簇中的对象则相异聚类分析将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程聚类是一种无指导的学习：没有预定义的类编号聚类分析的数据挖掘功能作为一个独立的工具来获得数据分布的情况作为其他算法（如：特征和分类）的预处理步骤聚类分析的典型应用模式识别空间数据分析在GIS系统中，对相似区域进行聚类，产生主题地图检测空间聚类，并给出它们在空间数据挖掘中的解释图像处理商务应用中，帮市场分析人员发现不同的顾客群万维网对WEB上的文档进行分类对WEB日志的数据进行聚类，以发现相同的用户访问模式什么是好的聚类分析？一个好的聚类分析方法会产生高质量的聚类高类内相似度低类间相似度作为统计学的一个分支，聚类分析的研究主要是基于距离的聚类；一个高质量的聚类分析结果，将取决于所使用的聚类方法聚类方法的所使用的相似性度量和方法的实施方法发现隐藏模式的能力数据挖掘对聚类分析的要求 (1) 可扩展性(Scalability) 大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率处理不同数据类型的能力数字型；二元类型，分类型/标称型，序数型,比例标度型等等发现任意形状的能力基于距离的聚类算法往往发现的是球形的聚