- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第10章 对调查对象的分类 第一节 距离与相似性度量 内容 10.1.1测度空间定义 10.1.2 几种距离测度定义 10.1.3 匹配测度 10.1.4 相似度量 10.1.1测度空间 d(x, y) ≥ 0 (非负性) d(x, y) = 0 当且仅当 x = y (不可区分者的同一性) d(x, y) = d(y, x) (对称性) d(x, z) ≤ d(x, y) + d(y, z) (三角不等式) 10.1.2几种距离定义 欧几里德距离定义点 总结:X与Y的距离实质是(X-Y)的模:,计算该距离之前要标准化模式向量单位 几种距离定义 明可夫斯基距离公式:总结:L-p范数空间的距离定义,m=2:欧式距离相等,m=1:曼哈顿距离,m为无穷大:切比雪夫距离 几种距离定义 曼哈顿距离 切比雪夫距离 Camberra距离(Lance距离,Williams距离) 马氏距离(Mahalanobis)定义多变量向量 ,其均值为 协方差矩阵为定义服从同一分布,且协方差矩阵为 的随机变量,则 差异度:容易证明,马氏距离对一切非奇异线性变换都是不变的,这说明它不受特征量纲选择的影响。 10.1.3匹配测度 特指二元向量的相似性测度p:两个物体都为1的变量个数q:i物体为1,j物体为0的变量个数r:i物体为0,j物体为1的变量个数s:两个物体都为0的变量个数t:t=p+q+r+s,所有变量的个数 匹配测度 简单匹配距离对应的相似度函数 Jaccard系数(Tanimoto系数) 匹配测度 Dice系数 匹配测度 汉明距离定义:汉明距离用于信息论中,它对应的是两个等长的字符串在相同位置上不同字符的个数。汉明重量是指一个字符串相对于与它等长的零字符串的汉明距离。汉明距离是在信息误差检测和矫正码领域提出来的。信号距离:在数据传输过程中信号数据位发生翻转的次数;编辑距离(Levenshtein):两个字符之间有一个转成另一个所用的最少的编辑操作次数,操作包括:替换、插入、删除一个字符 匹配测度 其它匹配距离定义方法Rao测度 Kulzinsky系数等等 10.1.4相似度量 余弦相似度函数该函数反映了两个向量之间夹角的余弦值,对放大和缩小相对变换无影响。一般在使用前需要对个元素进行无量纲化处理。 相似度量 皮尔逊相关系数(Pearson correlation coefficient)相关系数是中心化的夹角余弦 相似度量 指数相关系数 为相应分量的协方差,n为矢量维数,不受量纲变化的影响 相似度量 Tanimoto测度Tanimoto测度两个模式的共有特征和共占有特征的比。广义Jaccard系数,在二元属性下归约为Jaccard系数。 相似度量 广义Dice系数法Dice系数的广义应用推广,与夹角余弦有相似之处,分母分别是两个向量长度的算术平均值与几何平均值。 相似度量 直方图间的相似性 距离是最常用的直方图之间的距离。 相似度量 当各特征值非负时,还可见到下列几种相似系数。 第二节 分层聚类 概念完全按照反映对象特征的数据把对象进行分类,这在统计上称为聚类分析。 聚类分析不同于因素分析:因素分析是根据所有变量间的相关关系提取公共因子;聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小类合并,如此分层依次进行; 聚类分析不同于判别分析:事先有了某种分类标准之后,判定一个新的研究对象应该归属到哪一类别,这在统计上则称为判别分析(discriminant analysis)。 层次聚类(hierarchical cluster) 层次聚类又称系统聚类,或分层聚类 层次聚类事先不需要确定要分多少类,聚类过程一层层进行,最后得出所有可能的类别结果,研究这根据具体情况确定最后需要的类别。 计算类间距离(与上面介绍的点间距离不同)的方法有很多,不同方法会得到不同的聚类结果,常用的是离差平方和法(Ward’s method),又称Ward法 例题:根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析 (表格数据未显示完整,有31个省份的6个经济指标) 以上结果的说明 首先把31个地区各自作为一类(共有31类)。第1步是把距离最近的两个地区21(海南)和地区30(宁夏)合并成一类。第2步被合并的是21和地区29(青海),这里的“21”实际上是指在第1步
您可能关注的文档
- 第4章隔离开关的控制和闭锁电路x题稿.ppt
- 原子核外电子的排布规律题稿.ppt
- 【测控专业英语】ComputerNetworkBasedIndustrialControlSystems2012基于计算机网络的工业控制系统题稿.ppt
- 第4章还原反应题稿.ppt
- 【创新设计】2015-2016学年高中物理5.6电能的输送新人教版选修3-2题稿.ppt
- 4、项目四气缸套的拆装与维修教案.ppt
- 原子核外电子的排布题稿.ppt
- 【二】16.4.2零指数幂与负整数指数幂题稿.ppt
- 原子核章节第一轮复习题稿.ppt
- 第4章自顶向下语法题稿.ppt
- 人教版九年级英语全一册单元速记•巧练Unit13【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit9【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit11【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit14【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit8【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit4【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit13【单元测试·基础卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit7【速记清单】(原卷版+解析).docx
- 苏教版五年级上册数学分层作业设计 2.2 三角形的面积(附答案).docx
- 人教版九年级英语全一册单元速记•巧练Unit12【单元测试·基础卷】(原卷版+解析).docx
文档评论(0)