聚类分析算法文档.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析算法文档

聚类算法 1.引言 在古老的分类学中,人们主要靠经验和专业知识进行定性分析,如黑人,白人,黄种人,我们凭视觉感观就能做出分类,很少利用数学方法,随着科学的发展,分类要求越来越高以致靠经验和专业知识不能进行确切的科学分类;于是数学这个定量化的有力工具便被引进分类科学中来,形成了数值分析学,近20年来,多元统计分析技术被引进到分类学中,于是从数值分析学中逐渐地分离出来聚类分析这个新的分支。 聚类分析方法应用广泛,已经被广泛应用于考古学,地质学,天气预报,作物品种分类,土壤分类,微生物分类,就是在经济管理,社会统计部门,也用到聚类分析进行定量分类。 如何对事物进行分类呢?我们知道,同类事物具有很强的相似性,因此我们可以用相似性统计量这个度量标准来作为事物分类的依据,等价说法就是同类事物之间的距离应该很小,因此我们可以用距离统计量来作为分类的依据。若样品是一个向量则可以用相似系数统计量来进行分类。根据研究的关系不同我们可以选取不同的方法。当研究样品与样品之间的关系时我们选取距离系数统计量或者相似系数统计量作为分类依据,称为Q型聚类法。当研究的是变量之间的关系时可以采用相关系数统计量作为分类依据,这种方法称为R型聚类。 2.距离系数发聚类的基本原理 设有n个样品,分别测定了m个特征变量。如果将n个样品看成m维空间的一个点或者看成m维空间的n个点失。则在m维空间可以定义一种距离,该距离应满足如下四个条件,若dij表示第i个样品和第j个样品之间的距离,则有 a) dij==0时,样品i与j恒等; b) 对一切i与j,dij=0; c) dij=dji; d) dij=dik+djk; 由此可知样品之间的距离越小,他们之间的相似程度越高;反之,距离越大,则表明两样品之间的相似程度越低,由此,可以用样品之间的距离来分类。 3.聚类分析算法流程 3.2 程序实现步骤 (1)对数据进行正规化处理 (2)计算出距离系数矩阵 (3)开始聚类 (4)重复第一步找出出最小值 (5)合并最小值所对应的列数据重复第二步 (6)循环前面几步直到所有的样品合成一类 3.3数据准备与预处理 将要处理的数据进行整理 按同种样品同种特征变量表格化 4聚类算法的程序实现 4.1程序的使用说明 1.程序采用Matlab语言,样品间关系可采用欧氏距离、标准化欧氏距离、马氏距离、布洛克距离、明可斯基距离,类间距离可应用最短距离法进行聚类; 2.gg1data——Matlab data file(Mat文件),存放原始数据矩阵X M×N; 3.Matlab函数: pdist(X, ‘metric’)——使用metric指定的方法计算数据矩阵X中对象之间的距离。metric可以是下面字符串中的任意一个: ①’Euclid’ ——欧氏距离(默认选项); ②’Seuclid’——标准化欧氏距离; ③’Mahal’——马氏距离; ④’CityBlock’——布洛克距离; ⑤’Minkowski’ ——明可斯基距离; Y=pdist(X,’minkowski’,p)——使用明可斯基距离计算X数据矩阵中对象之间的距离。P为明可斯基距离计算过程中的幂次,默认值为2。 dendrogram(Z)——输出冰状图。 4.2 程序源代码 function ggl (x,M,N) Rmin=min(x); %变量初始化 Gmax=max(x); A=M; u=1; %进行数据标准化 XXX=(x-Rmin(ones(A,1),:))./(Gmax(ones (A,1),:)-Rmin(ones (A,1),:)); %用书上公式5.3对数据进行标准化 X=XXX XX(1,:)=1:M; %矩阵XX的第一行为系数 XX(2:N+1,:)=X; %从第二行开始矩阵XX为标准化矩阵X的数据 w=zeros(4,A); %定义一个新矩阵 t=1; YY=pdist(X)/sqrt(N);

文档评论(0)

zhuliyan1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档