- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8章聚类分析析讲解
给定n个对象的数据集,以及要生成的簇的数目k,划分算法将对象组织为k个划分(k n)每个划分代表一个簇 通常通过计算对象间距离进行划分 典型的划分方法 k均值 k中心点 以上两种方法的变种 簇的相似度是关于簇中对象的均值度量,可以看作簇的质心(centroid) k均值算法流程 随机选择k个对象,每个对象代表一个簇的初始均值或中心 对剩余的每个对象,根据它与簇均值的距离,将他指派到最相似的簇 计算每个簇的新均值 回到步骤2,循环,直到准则函数收敛 常用准则函数:平方误差准则 (p是空间中的点,mi是簇Ci的均值) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 K=2 随机选择2个对象,作为簇的中心 将每个对象指派到最相似的簇 更新每个簇的均值 更新每个簇的均值 重新分派 重新分派… 可扩展性较好,算法复杂度为O(nkt),其中n为对象总数,k是簇的个数,t是迭代次数。 经常终止于局部最优解 缺点 只有当簇均值有定义的情况下,k均值方法才能使用。(某些分类属性的均值可能没有定义) 用户必须首先给定簇数目 不适合发现非凸形状的簇,或者大小差别很大的簇 对噪声和离群点数据敏感 k均值方法有些变种,他们的区别在于 不同的初始k个均值的选择 不同的相异度计算 不同的计算簇均值的策略 聚类分类数据的方法:k众数(mode)方法 用众数来替代簇的均值 采用新的相异性度量处理分类对象 采用基于频率的方法更新簇的众数 可以集成k均值和k众数方法,对具有数值和分类值的数据进行聚类 k均值方法对于离群点敏感 一个具有很大极端值的对象可能显著的扭曲数据的分布 平方误差函数将进一步严重恶化这种影响 k中心点方法:采用簇的中心点,即最靠近中心的对象来代表簇 降低算法对离群点的敏感度 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 k中心点方法仍然基于最小化所有对象与其对应的参照点之间的相异度之和原则,使用的是绝对误差标准 (p是空间中的点,代表簇Cj中一个给定对象;oj是簇Cj中的代表对象) 通常该算法重复迭代,直到每个代表对象都成为它的簇的实际中心点 首先随意选择初始代表对象 只要能够提高结果聚类质量,迭代过程就使用非代表对象替换代表对象 聚类结果的质量用代价函数评估,该函数度量对象与其簇的代表对象之间的平均差异度 为了确定非代表对象Orandom是否能够替代当前代表对象Oj,对于每一个非代表对象p,考虑四种情况 + Oi + Oj p + Orandom 1. 重新分配给Oi + Oi + Oj p + Orandom 2. 重新分配给Orandom + Oi + Oj p + Orandom 3. 不发生变化 + Oi + Oj p + Orandom 4. 重新分配给Orandom 重新分配将对代价函数产生影响,如果当前的代表对象被非代表对象所取代,代价函数就是计算绝对误差值的差 变换的总代价是所有非代表对象所产生的代价之和 总代价为负,实际的绝对误差E将减少,Oj可以被Orandom所取代 总代价为正,则本次迭代没有变化 当存在噪声和离群点时,k中心点方法比k均值方法更加鲁棒 中心点较少的受离群点影响 k中心点方法的执行代价比k均值方法要高 k均值方法: O(nkt) k中心点方法:O(k(n-k)2) n与k较大时,k中心点方法的执行代价很高 两种方法都要用户指定簇的数目k 什么是离群点? 一个数据集与其他数据有着显著区别的数据对象的集合 例如:运动员:Michael Jordon, 舒马赫,布勃卡 离群点产生原因 度量或执行错误(年龄:-999) 数据变异的结果 离群点挖掘 给定一个n个数据对象的集合,以及预期的离群点数目k,发现与剩余的数据有着显著差异的头k个数据对象 应用 欺诈检测、医疗中的异常分析等 统计的方法对于给定的数据集合假定了一个分布或概率模型(例如正态分布) 使用依赖于以下参数的不一致性检验(discordancy tests) 数据分布 分布参数(e.g. 均值或方差) 预期的离群点数 缺点 绝大多数检验是针对单个属性的,而数据挖掘要求在多维空间中发现离群点 大部分情况下,数据分布可能是未知的 为了解决统计学方法带来的一些限制,引入了基于距离的离群点检测 在不知道数据分布的情况下对数据进行多维分析 基于距离的离群点:即DB(p,d),如果数据集合S中的对象至少有p部分与对象o的距离大于d,则对象o就是DB(p,d)。 挖掘基于距离的离群点的高效算法:
文档评论(0)