聚类算法介ppts.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类算法介ppts

聚类算法简介聚类算法概念介绍聚类的基本概念聚类的基本要素聚类的典型要求聚类的经典算法聚类的基本概念--什么是聚类?聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小;聚类中没有任何指导信息,完全按照数据的分布进行类别划分。聚类的大小和结构都没有事先假定。聚类的基本概念--类似概念-分类?分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。分类是事先定义好类别 ,类别数不变 。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。学习:用分类算法分析训练数据。学习模型或分类法以分类规则形式提供。 分类:测试数据用于评估分类规则的准确率。如果准确率是可以接受的,则规则用于新的数据元组分类训练数据待分类数据聚类的基本概念--聚类与分类的主要区别有类别标记和无类别标记;有监督与无监督(有训练语料与无训练语料)聚类的基本要素数据之间的相似度;聚类有效性函数(停止判别条件); 1. 在聚类算法的不同阶段会得到不同的类别划分结果,可以通过聚类有效性函数来判断多个划分结果中哪个是有效的; 2. 使用有效性函数作为算法停止的判别条件,当类别划分结果达到聚类有效性函数时即可停止算法运行;类别划分策略(算法); 通过何种类别划分方式使类别划分结果达到有效性函数;相似度数据表示为向量,向量中某一维对应数据某一特征或属性。欧氏距离:E D (Ai,Aj)=sqrt(∑1..n(Aim - Ajm )2)如:用户A,流量20MB,通话时长100分钟,用户B流量0MB,通话时长100分钟,他们的距离=20单位。曼哈顿距离:MD (Ai,Aj)=(∑1..n|Aim - Ajm |)明考斯基距离 ……聚类的基本概念--最小误差( ):衡量属于不同类别的数据与类别中心的的误差和;最小方差:衡量同一类别内数据的平均误差和;聚类的典型要求可伸缩性许多聚类算法在小于 200 个数据对象的小数据集合上工作得很好;但是,一个大规模数据库可能包含几百万个对象,在这样的大数据集合样本上进行聚类可能会导致有偏的结果。我们需要具有高度可伸缩性的聚类算法。处理不同类型属性的能力许多算法被设计用来聚类数值类型的数据。但是,应用可能要求聚类其他类型的数据,如二元类型(binary),分类/标称类型(categorical/nominal),序数型(ordinal)数据,或者这些数据类型的混合。发现任意形状的聚类许多聚类算法基于欧几里得或者曼哈顿距离度量来决定聚类。基于这样的距离度量的算法趋向于发现具有相近尺度和密度的球状簇。但是,一个簇可能是任意形状的。提出能发现任意形状簇的算法是很重要的。用于决定输入参数的领域知识最小化许多聚类算法在聚类分析中要求用户输入一定的参数,例如希望产生的簇的数目。聚类结果对于输入参数十分敏感。参数通常很难确定,特别是对于包含高维对象的数据集来说。这样不仅加重了用户的负担,也使得聚类的质量难以控制。处理“噪声”数据的能力绝大多数现实中的数据库都包含了孤立点,缺失,或者错误的数据。一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果。对于输入记录的顺序不敏感一些聚类算法对于输入数据的顺序是敏感的。例如,同一个数据集合,当以不同的顺序交给同一个算法时,可能生成差别很大的聚类结果。开发对数据输入顺序不敏感的算法具有重要的意义。高维度(high dimensionality)一个数据库或者数据仓库可能包含若干维或者属性。许多聚类算法擅长处理低维的数据,可能只涉及两到三维。人类的眼睛在最多三维的情况下能够很好地判断聚类的质量。在高维空间中聚类数据对象是非常有挑战性的,特别是考虑到这样的数据可能分布非常稀疏,而且高度偏斜。基于约束的聚类现实世界的应用可能需要在各种约束条件下进行聚类。假设你的工作是在一个城市中为给定数目的自动提款机选择安放位置,为了作出决定,你可以对住宅区进行聚类,同时考虑如城市的河流和公路网,每个地区的客户要求等情况。要找到既满足特定的约束,又具有良好聚类特性的数据分组是一项具有挑战性的任务。可解释性和可用性用户希望聚类结果是可解释的,可理解的,和可用的。也就是说,聚类可能需要和特定的语义解释和应用相联系。应用目标如何影响聚类方法的选择也是一个重要的研究课题。 聚类算法概念介绍聚类的经典算法基于划分的算法基于层次的算法其它算法示例聚类分析计算方法基于划分的方法(Partitioning method)特点:k事先定好创建一个初始划分,再采用迭代的重定位技术运算量较小,适用于处理庞大的样本数据适用于发现球状类优点:聚类时间快;缺点:对初始参数敏感;容易陷入局部最优; 基于划分的

文档评论(0)

1444168621 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档