- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据处理1PPT
数据处理专题;数据处理的内容:;一、数据预处理; 二、数据处理的一般方法; 二、数据处理的一般方法;表:31个主要城市空气质量指标(2003年) 单位:毫克/立方米 ;
城 市; 2. 数据指标的无量纲化处理方法 ;
城 市;中心化变换
中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。;2、数据光滑化处理。;聚类分析(Cluster Analysis);其他聚类方法;综合人口承载力研究;;;
1、间隔尺度:变量是用连续量来表示,如长度、重 量等。
2、有序尺度:用一些等级来表示。如上中下三等。
3、名义尺度:既没有数量表示也没有次序表示。如 红、黄、 蓝三色等。; 我们通过数学当中的距离来表示进行分类。具体方法有:最短距离法、最长距离法、中间距离法、重心法等。我们用最短距离法来讲述,其它方法读者自己翻阅相关的多元统计教材。;类间的连接方法;Q分类距离的选择;(2)兰氏距离; 这是印度著名统计学家马哈拉诺比斯(P.C.’Mahalanobis)所定义的一种距离,其计算公式为:;协方差及协方差矩阵的定义;;R分类相似度选择;2、夹角余弦法;3、相关系数法;4、指数相关系数法;最短距离法
步骤如下:
【1】定义样品之间的距离,计算样品两两距离,得一距离记为D(0)
开始每个样品自成一类,显然这时Dij =dij。其中D表示类Group之间的距离,distance表示样品之间的距离。
【2】找出D(0) 的非对角线最小元素,设为Dpq,则将Gp和Gq合并为一新类,记为Gr 。
【3】给出计算新类与其他的类的距离公式:
距离公式有:欧氏距离,马氏距离,兰氏距离等。
Dkr=min{Dkp,Dkq}将D(0)中的第p、q行及p、q列用上面公式并成一个新行新列,新行新列对应Gr,所得到得矩阵记为D(1)
【4】对D(1)重复上述对D(0)的(2)(3)两步得D(2);如此下去,直到所有的元素并为一类。
注意:如果某一步中非对角线最小的元素不止一个,则对应这些最小元素的类可以同时合并。
为了大家便于掌握我们举例如下:
; 例:设抽取五个样品,每个样品只测一个指标,它们是1,2,3.5,7,9,试用最短距离法对这五个样品进行分类。;D1;X1
X2
X3
X4
X5;Step1 寻找变量之间的相似性
用pdist函数计算相似矩阵,有多种方法可以计算距离,进行计算之前最好先将数据用zscore函数进行标准化。
X=[1,2,3.5,7,9]
X2=zscore(X); %标准化数据
Y2=pdist(X2, ‘euclidean’); %计算距离(欧氏距离)
Step2 定义变量之间的连接
Z2=linkage(Y2, ‘single’);%最短距离法
Step3 评价聚类信息
C2=cophenet(Z2,Y2);
Step4 创建聚类,并作出谱系图
T=cluster(Z2,2);%表示将将X分成2类
H=dendrogram(Z2);%画出聚类树形图;;zscore函数
调用格式:Z = ZSCORE(D)
说明:目的是标准化数据,它所采取的标准话原理是标准化变换;linkage函数
调用格式:Z=linkage(Y,’method’)
说 明:用‘method’参数指定的算法计算系统聚类树。
Y:pdist函数返回的距离向量;
method:可取值如下:
‘single’:最短距离法(默认); ‘complete’:最长距离法;
‘average’:未加权平均距离法; ‘weighted’: 加权平均法;
‘centroid’:质心距离法; ‘median’:加权质心距离法;
‘ward’:内平方距离法(最小方差算法);dendrogram函数
调用格式:[H,T]=dendrogram(Z,n)
说明:产生的聚类树是一个n型树,最下边表示样本,然后一级一级往上聚??,最终成为最顶端的一类。纵轴高度代表距离列 。另外,还可以设置聚类数最下端的样本数,默认为30,可以根据修改dendrogram(Z,n)参数n来实现,1nM。dendrogram(Z,0)则表n=M的情况,显示所有叶节点。;;解:程序如下
clear
clc
data1=load(data1.txt)
X=zscore(data1)
Y2=pdist(X, mahalanobis);%计算样本间距离
Z2=linkage(Y2,
您可能关注的文档
最近下载
- DB3301∕T 0235—2018 城市公共厕所设置标准(杭州市).pdf VIP
- 变压器基础知识培训课件.pptx VIP
- 2025广东江门鹤山市沙坪街道卫生院(鹤山市人民医院沙坪分院)招聘8人(第二批次)笔试备考试题及答案解析.docx VIP
- 牛顿第一第三定律高中物理一轮专题复习.doc VIP
- 口腔设备学口腔综合治疗台课件.ppt VIP
- 新视野大学英语(第四版)读写教程3(思政智慧版) 教案 B3U2 Unit 2 Life stories.docx
- 专题18 力学试验(原卷版).pdf VIP
- 〖JGJ111-2016〗建筑与市政工程地下水控制技术规范.pdf VIP
- 高等学校岗位设置的研究.doc VIP
- 2025年锅炉水处理作业人员G3证考试试题题库(300题)含答案.docx VIP
文档评论(0)