- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析
(Cluster analysis )
“物以类聚,人以群分”
聚类(簇):数据对象的集合
是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不
同的组,这样的一组数据对象的集合叫做簇,并且对每一个这
样的簇进行描述的过程。
它的目的是使得属于同一个簇的样本之间应该彼此相似,而不
同簇的样本应该足够不相似
聚类分析
◦ 将物理或抽象对象的集合分组成为由类似的对象组成的多个
类的过程
聚类是一种无指导的学习:没有预定义的类编号
机器学习
机器学习
机器学习根据学习的方式可以分为监督学习和非监
督学习。
1)监督学习(supervised learning) ,即在机械学
习过程中提供对错指示及为分类。一般实在是数据
组中包含最终结果(0,1)。通过算法让机器自我
减少误差。这一类学习主要应用于分类和预测
(regression classify)。如决策树,贝叶斯
2)非监督学习(unsupervised learning)又称归纳
性学习(clustering)利用K方式(Kmeans),建立
中心(centriole),通过循环和递减运算
(iterationdescent)来减小误差,达到分类的目的。
聚类分析的核心思想就是根据具体的指标
(变量)对你所研究的样品进行分类.
指标是什么?
样品是什么?
模式识别
空间数据分析
◦ 在GIS系统中,对相似区域进行聚类,产生主题地图
◦ 检测空间聚类,并给出它们在空间数据挖掘中的解释
◦ 图像处理
商务应用中,帮市场分析人员发现不同的顾客群
万维网
◦ 对WEB上的文档进行分类
◦ 对WEB 日志的数据进行聚类,以发现相同的用户访问模式
聚类分析的目标:
聚类分析的目标:
聚类分析的目标就是形成的数据簇,并且满足下
面两个条件:
一个簇内的数据尽量相似(high intra-class
similarity);
不同簇的数据尽量不相似(low inter-class
similarity)。
衡量一个聚类分析算法质量,依靠:
相似度测量机制是否合适。
是否能发现数据背后潜在的、手工难以发现的类知识。
聚类分析算法种类繁多,具体的算法选择取决于数据
类型,聚类的应用和目的,常用的聚类算法包括:
◦ 划分方法
◦ 层次的方法
◦ 基于密度的方法
◦ 基于网格的方法
◦ 基于模型的方法
实际应用中的聚类算法,往往是上述聚类方法中多种
方法的整合
给定一个n个对象或元组的数据库,一个划分方法构
建数据的k个划分,每个划分表示一个簇,并且
k=n。
◦ 每个组至少包含一个对象
◦ 每个对象属于且仅属于一个组
划分准则:同一个聚类中的对象尽可能的接近或相
关,不同聚类中的对象尽可能的原理或不同
簇的表示
◦ k-平均算法
由簇的平均值来代表整个簇
◦ k中心点算法
由处于簇的中心区域的某个值代表整个簇
对给定数据对象集合进行层次分解
◦ 自底向上方法(凝聚): 分裂的(DIANA)
◦ 自顶向下方法(分裂): a, b, c, d, e
第4 步
◦ 缺点:合并或分裂的步骤 第0步
不能被撤销 第3步 c, d, e
第1步
第2步
文档评论(0)