数据处理1PPT.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据处理1PPT

数据处理专题;数据处理的内容:;一、数据预处理; 二、数据处理的一般方法; 二、数据处理的一般方法;表:31个主要城市空气质量指标(2003年) 单位:毫克/立方米 ; 城 市; 2. 数据指标的无量纲化处理方法 ; 城 市;中心化变换 中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。;2、数据光滑化处理。;聚类分析(Cluster Analysis);其他聚类方法;综合人口承载力研究;;; 1、间隔尺度:变量是用连续量来表示,如长度、重 量等。 2、有序尺度:用一些等级来表示。如上中下三等。 3、名义尺度:既没有数量表示也没有次序表示。如 红、黄、 蓝三色等。; 我们通过数学当中的距离来表示进行分类。具体方法有:最短距离法、最长距离法、中间距离法、重心法等。我们用最短距离法来讲述,其它方法读者自己翻阅相关的多元统计教材。;类间的连接方法;Q分类距离的选择;(2)兰氏距离; 这是印度著名统计学家马哈拉诺比斯(P.C.’Mahalanobis)所定义的一种距离,其计算公式为:;协方差及协方差矩阵的定义;;R分类相似度选择;2、夹角余弦法;3、相关系数法;4、指数相关系数法;最短距离法 步骤如下: 【1】定义样品之间的距离,计算样品两两距离,得一距离记为D(0) 开始每个样品自成一类,显然这时Dij =dij。其中D表示类Group之间的距离,distance表示样品之间的距离。 【2】找出D(0) 的非对角线最小元素,设为Dpq,则将Gp和Gq合并为一新类,记为Gr 。 【3】给出计算新类与其他的类的距离公式: 距离公式有:欧氏距离,马氏距离,兰氏距离等。 Dkr=min{Dkp,Dkq}将D(0)中的第p、q行及p、q列用上面公式并成一个新行新列,新行新列对应Gr,所得到得矩阵记为D(1) 【4】对D(1)重复上述对D(0)的(2)(3)两步得D(2);如此下去,直到所有的元素并为一类。 注意:如果某一步中非对角线最小的元素不止一个,则对应这些最小元素的类可以同时合并。 为了大家便于掌握我们举例如下: ; 例:设抽取五个样品,每个样品只测一个指标,它们是1,2,3.5,7,9,试用最短距离法对这五个样品进行分类。;D1;X1 X2 X3 X4 X5;Step1 寻找变量之间的相似性 用pdist函数计算相似矩阵,有多种方法可以计算距离,进行计算之前最好先将数据用zscore函数进行标准化。 X=[1,2,3.5,7,9] X2=zscore(X); %标准化数据 Y2=pdist(X2, ‘euclidean’); %计算距离(欧氏距离) Step2 定义变量之间的连接 Z2=linkage(Y2, ‘single’);%最短距离法 Step3 评价聚类信息 C2=cophenet(Z2,Y2); Step4 创建聚类,并作出谱系图 T=cluster(Z2,2);%表示将将X分成2类 H=dendrogram(Z2);%画出聚类树形图;;zscore函数 调用格式:Z = ZSCORE(D) 说明:目的是标准化数据,它所采取的标准话原理是标准化变换;linkage函数 调用格式:Z=linkage(Y,’method’) 说 明:用‘method’参数指定的算法计算系统聚类树。 Y:pdist函数返回的距离向量; method:可取值如下: ‘single’:最短距离法(默认); ‘complete’:最长距离法; ‘average’:未加权平均距离法; ‘weighted’: 加权平均法; ‘centroid’:质心距离法; ‘median’:加权质心距离法; ‘ward’:内平方距离法(最小方差算法);dendrogram函数 调用格式:[H,T]=dendrogram(Z,n) 说明:产生的聚类树是一个n型树,最下边表示样本,然后一级一级往上聚??,最终成为最顶端的一类。纵轴高度代表距离列 。另外,还可以设置聚类数最下端的样本数,默认为30,可以根据修改dendrogram(Z,n)参数n来实现,1nM。dendrogram(Z,0)则表n=M的情况,显示所有叶节点。;;解:程序如下 clear clc data1=load(data1.txt) X=zscore(data1) Y2=pdist(X, mahalanobis);%计算样本间距离 Z2=linkage(Y2,

文档评论(0)

djdjix + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档