- 1、本文档共47页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
LOGO
第五章第五章聚类及其聚类及其
应用分析应用分析
应用分析应用分析
主要内容
1 聚类分析基本概念
2 典型聚类算法简介
3 K-means算法的实现
4 聚类分析的应用实例
1.1 什么是聚类?
聚类 (Clustering)是将物理或抽象的对象集合分
成多个组的过程,聚类生成的组称为簇
((ClusterCluster)),,即簇是数据对象的集合即簇是数据对象的集合。。
聚类就是要:
让生成的簇内部的任意两个对象之间具有较高的相似度
而属于不同簇的两个对象间具有较高的相异度。
聚类是一种无指导 (无监督)的学习:
没有预定义的类编号
聚类分析的数据挖掘功能聚类分析的数据挖掘功能
作为一个独立的工具来获得数据分布的情况
作为其他算法的预处理步骤
有指导的学习V.S. 无指导的学习
聚类分析
从统计学的观点看
聚类分析是对数据建模,从而简化数据的一种方法,
作为多元统计分析的主要分支之一,聚类分析已被研
究了很多年,主要集中在基于距离和基于相似度的聚
类方法类方法。。
从机器学习的观点看
簇相当于隐藏模式,聚类是搜索簇的无监督学习过程。
从实际应用的角度看
聚类分析是数据挖掘的主要任务之一。数据挖掘领域
主要研究面向大型数据库、数据仓库的高效和实用的
聚类分析算法。
1.2 数据挖掘对聚类分析的九大要求
可扩展性(Scalability)
大多数来自于机器学习和统计学领域的聚类算法在处理数百
条数据时能表现出高效率
处理不同数据类型的能力
数字型数字型;;二元类型二元类型,,分类型分类型//标称型标称型,,序数型序数型,,比例标度型等比例标度型等
等
发现任意形状的能力
基于距离的聚类算法往往发现的是球形的聚类,其实现实的
聚类是任意形状的
用于决定输入参数的领域知识最小化
对于高维数据,参数很难决定,聚类的质量也很难控制
处理噪声数据的能力
对空缺值、离群点、数据噪声不敏感
对于输入数据的顺序不敏感
同一个数据集合,以不同的次序提交给同一个算法,
应该产生相似的结果
高维性高维性
高维的数据往往比较稀松,而且高度倾斜
基于约束的聚类
找到既满足约束条件 (如聚类数k),又具有良好聚类
特性的数据分组
可解释性和可用性
聚类要和特定的语义解释和应用相联系
1.3 聚类分析中的数据类型
许多基于内存的聚类算法 x ... x ... x
11 1f 1p
采用以下两种数据结构 ... ... ... ... ...
数据矩阵:用p个变量来表 x ... x ... x
i1 if ip
示n个对象 ... ... ... ... ...
•• 也叫二模矩阵也叫二模矩阵,,行与列代行与列代
您可能关注的文档
最近下载
- 小学数学奥林匹克训练题库.pdf
- 初中数学说题比赛:新人教版九年级上册教材第63页第10题(共19张)教育精品(打印版).docx VIP
- 22G101 三维彩色立体图集.docx
- ANSYS-Workbench教程及实例2(最新整理版).docx VIP
- 中国汽车强制性产品认证3C认证课件.pptx
- 初中数学说题比赛:新人教版九年级上册教材第63页第10题(共19张PPT).ppt VIP
- 印尼会计准则与国际财务报告准则趋同研究.pptx VIP
- 人工智能在农业生产中的应用与智慧农业.pptx VIP
- 2024-2025学年统编版道德与法治七年级上册期末模拟测试卷(含答案).pdf VIP
- 期末学情评估卷(含答案)统编版2024道德与法治七年级上册.doc VIP
文档评论(0)