第五章 聚类及其应用分析.pdf

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
LOGO 第五章第五章聚类及其聚类及其 应用分析应用分析 应用分析应用分析 主要内容 1 聚类分析基本概念 2 典型聚类算法简介 3 K-means算法的实现 4 聚类分析的应用实例 1.1 什么是聚类? 聚类 (Clustering)是将物理或抽象的对象集合分 成多个组的过程,聚类生成的组称为簇 ((ClusterCluster)),,即簇是数据对象的集合即簇是数据对象的集合。。 聚类就是要:  让生成的簇内部的任意两个对象之间具有较高的相似度  而属于不同簇的两个对象间具有较高的相异度。 聚类是一种无指导 (无监督)的学习:  没有预定义的类编号 聚类分析的数据挖掘功能聚类分析的数据挖掘功能  作为一个独立的工具来获得数据分布的情况  作为其他算法的预处理步骤 有指导的学习V.S. 无指导的学习 聚类分析 从统计学的观点看  聚类分析是对数据建模,从而简化数据的一种方法, 作为多元统计分析的主要分支之一,聚类分析已被研 究了很多年,主要集中在基于距离和基于相似度的聚 类方法类方法。。 从机器学习的观点看  簇相当于隐藏模式,聚类是搜索簇的无监督学习过程。 从实际应用的角度看  聚类分析是数据挖掘的主要任务之一。数据挖掘领域 主要研究面向大型数据库、数据仓库的高效和实用的 聚类分析算法。 1.2 数据挖掘对聚类分析的九大要求 可扩展性(Scalability)  大多数来自于机器学习和统计学领域的聚类算法在处理数百 条数据时能表现出高效率 处理不同数据类型的能力  数字型数字型;;二元类型二元类型,,分类型分类型//标称型标称型,,序数型序数型,,比例标度型等比例标度型等 等 发现任意形状的能力  基于距离的聚类算法往往发现的是球形的聚类,其实现实的 聚类是任意形状的 用于决定输入参数的领域知识最小化  对于高维数据,参数很难决定,聚类的质量也很难控制 处理噪声数据的能力  对空缺值、离群点、数据噪声不敏感 对于输入数据的顺序不敏感  同一个数据集合,以不同的次序提交给同一个算法, 应该产生相似的结果 高维性高维性  高维的数据往往比较稀松,而且高度倾斜 基于约束的聚类  找到既满足约束条件 (如聚类数k),又具有良好聚类 特性的数据分组 可解释性和可用性  聚类要和特定的语义解释和应用相联系 1.3 聚类分析中的数据类型 许多基于内存的聚类算法 x ... x ... x   11 1f 1p  采用以下两种数据结构  ... ... ... ... ...   数据矩阵:用p个变量来表  x ... x ... x   i1 if ip  示n个对象  ... ... ... ... ...  •• 也叫二模矩阵也叫二模矩阵,,行与列代行与列代  

文档评论(0)

我思故我在 + 关注
实名认证
内容提供者

部分用户下载打不开,可能是因为word版本过低,用wps打开,然后另存为一个新的,就可以用word打开了

1亿VIP精品文档

相关文档