- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于概率保真度的聚类分析算法及应用.doc
基于概率保真度的聚类分析算法及应用
摘要:聚类分析是数据挖掘的主要任务之一,而现有的聚类分析算法大多基于传统的相似性度量方法。该文在研究相似性度量的理论基础上,提出了一种新的相似性度量方法,该方法包含两个部分:总量相似度和结构相似度,进而提出了基于概率保真度的聚类分析算法,并通过实例分析证明该算法是合理可行的。
关键词:聚类分析;数据标准化;相似性度量;概率保真度;教学质量评价
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)30-6700-05
1 概述
在信息处理过程中,聚类分析[1]是一种常用且非常重要的方法,其的基本思想是用相似性尺度来衡量事物之间的亲疏程度,并以此来实现聚类,即一个类中的对象相似性大,不同类中的对象相似性小。聚类分析的实质就是根据研究对象本身的属性来构造相似矩阵,在此基础上根据一定的阈值来确定其分类关系,其主要步骤包括确定对象统计指标与数据标准化、标定距离以建立相似矩阵、聚类和聚类结果评估[2,3]。
聚类分析方法多种多样,按不同标准可分为不同的类型,按照聚集规则大致可分为层次化聚类法、划分式聚类法、基于密度和网格的聚类法和其他聚类法[4]。聚类分析方法已广泛应用于社会的各个领域,如:语音识别[5]、字符识别[6]、图像分割[7]、信息检索[8]等,聚类分析的研究有助于各个领域的发展,进一步探讨聚类分析算法及其应用是十分必要的。该文的目的在于引入一种新的相似性度量方法,并且将它应用于层次聚类法中。
2 基于概率保真度的相似性度量
建立相似矩阵又称为标定,即标出衡量被分类对象间相似程度的统计量[rij]。建立相似矩阵是聚类分析算法中的关键步骤,传统度量相似性的方法主要有相似系数法、距离法、主观评分法、夹角余弦法等。下面介绍一种新的相似性度量方法来建立相似矩阵。
(4)
3.1数据的标准化处理
实际中的数据通常具有不同的性质和量纲,有些变量的绝对值大些,有些变量的绝对值小些,因此,直接使用原始数据进行计算,就会突出了那些绝对值大的变量,而压低了那些绝对值小的变量。所以,为了使原始数据能够适合聚类的要求,需要将原始数据矩阵做标准化处理,即做适当的数据变换和压缩,以方便后面的处理。
3.4 聚类
根据相似度越大的对象越先聚集在一起的原则进行聚类,具体步骤如下:
1) 找出[Rm]中的非对角线上的最大元素,设这个最大元素是[rpq],将该最大元素所对应的行[Tp]和列[Tq]代表的对象合并为一类[Tt={p,q}];计算WP矩阵中[Tp]和[Tq]两行的平均值作为该类[Tt]的重心,计算公式为:[wt=wp+wq2],[ptk=ppk+pqk2,(k=1,2,…n)];计算新类[Tt]与其他未聚合类的相似度。
2) 在[Rm]中消去[Tp]和[Tq]所对应的行和列,并加入由新类[Tt]与剩下的其他未聚合的类的相似度所组成的一行和一列,得到一个新的相似矩阵[Rm-1]。
3) 从[Rm-1]出发重复上述步骤,直至[m]个样品聚为一个大类为止。
4 算法的应用
5 结束语
本文在研究相似性度量的理论基础上,提出了一种新的相似性度量方法,该方法包含两个部分:总量相似度和结构相似度,并在此基础上探索了基于概率保真度的聚类分析方法。该文中的相似性度量方法还可以进一步应用到动态聚类法、划分式聚类法和其他聚类法中去,希望本文的结果能为进一步探讨聚类分析算法有所帮助。
参考文献:
[1] Jain A K,Dubes R C.Algorithms for clustering data[M].Prentice Hall Advanced Reference Series,1988,1-334.
[2] Jain A K,Murty M N,Flynn P J.Data clustering: Areview[J].ACM computing Surveys, 1999,31(3):264-323.
[3] Sambasivam S,Theodosopoulos N.Advanced Data Clustering Methods of Mining Web Documents[J]Issues in Informing Science and Information Technology,2006(3): 563-567.
[4] 孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,9(1):48-61.
[5] 王迎庆.利用分级模糊聚类分析自动识别语音[J].计算机学报,1989, 12(2):134-139.
[6] 黄文杰.基于
您可能关注的文档
最近下载
- 国标阀门型号编制方法JBT308-2004.PDF
- 2024年福建省能源石化集团有限责任公司春季校园招聘455人笔试参考题库附带答案详解.pdf
- 76G-3预应力长向圆孔板.pdf
- 数字媒体艺术_梦境主题“梦幻之旅”插画绘本设计.docx VIP
- 演示文稿国际结算的几种方式.ppt VIP
- C被遗弃的少女 das verlassene magdlein声乐正谱五线谱钢琴伴奏.pdf
- 七年级下数学数形结合附答案解析.pdf
- 教科版科学四年级下册 第三单元 岩石与土壤 5 岩石、沙和黏土.ppt VIP
- 软件系统试运行报告.doc VIP
- DLT 284_输电线路杆塔及电力金具用热浸镀锌螺栓与螺母.pdf
文档评论(0)