- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析综述.doc
聚类分析在实际中的应用综述
摘要:近几年来,模式识别技术在许多领域已得到或正得到卓有成效的应用。它所研究的理论和方法在许多科学和技术领域中得到了广泛的重视,推动了人工智能系统的发展,扩大了计算机应用的可能性。聚类分析是非监督模式识别的重要分支,在模式识别、数据挖掘、计算机视觉以及模糊控制等领域具有广泛的应用,也是近年来得到迅速发展的一个研究热点本文聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。(1)直接聚类法
先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。
(2)最短距离聚类法
:最短距离聚类法,是在原来的m×m距离矩阵的非对角元素中找出 ,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式 计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。
(3)最远距离聚类法
最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。最远距离聚类法所用的是最远距离来衡量样本之间的距离。.1 图书聚类分析
在进行图书聚类分析的过程中, 根据图书总计流通次数和当年流通次数对图书进行聚类分析。通过图书聚类分析可以得到哪些图书借阅频率较高,哪些图书借阅频率较低, 可以反映出馆藏图书的利用情况和读者对图书的兴趣, 从而制定出相应的决策, 有针对性地丰富馆藏资源和优化图书馆的馆藏布局。根据系统实际数据应用本文提供的K-均值改进算法进行图书聚类分析实验,步骤如下:
4.1.1 数据预处理
据统计, 数据预处理所花费的时间和成本占数据挖掘全过程的60%~80%, 其余的工作占20%~40%,由此可见,提高数据预处理的效率成为数据挖掘工作中的重中之重。数据预处理主要包括数据清洗、数据集成、数据转换和数据消减。根据数据预处理的方法, 结合论文所需要解决的问题可知,主要属性均不可以为空值。若这些相关属性出现空值, 将根据表的属性以及挖掘的内容将空值进行填充。
4.1.2 对图书数据进行聚类分析
在图书聚类分析过程中,设置聚类个数为3,采用K-均值改进算法对上面的图书被借阅次数进行聚类挖掘,可以得出图书聚类统计结果(表4)和图书聚类详细情况(表5)的数据。此挖掘结果中CLU_ID 字段中的1、2、3 分别表示利用率较高图书、利用率一般图书和利用率较低图书。图书聚类详表说明如下: 以第一条记录为例,
文档评论(0)