第10章对调查对象的分类抽样调查题稿.ppt

第10章对调查对象的分类抽样调查题稿.ppt

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第10章 对调查对象的分类 第一节 距离与相似性度量 内容 10.1.1测度空间定义 10.1.2 几种距离测度定义 10.1.3 匹配测度 10.1.4 相似度量 10.1.1测度空间 d(x, y) ≥ 0 (非负性) d(x, y) = 0 当且仅当 x = y (不可区分者的同一性) d(x, y) = d(y, x) (对称性) d(x, z) ≤ d(x, y) + d(y, z) (三角不等式) 10.1.2几种距离定义 欧几里德距离 定义点 总结:X与Y的距离实质是(X-Y)的模:,计算该距离之前要标准化模式向量单位 几种距离定义 明可夫斯基距离 公式: 总结:L-p范数空间的距离定义,m=2:欧式距离相等,m=1:曼哈顿距离,m为无穷大:切比雪夫距离 几种距离定义 曼哈顿距离 切比雪夫距离 Camberra距离(Lance距离,Williams距离) 马氏距离(Mahalanobis) 定义多变量向量 ,其均值为 协方差矩阵为 定义服从同一分布,且协方差矩阵为 的随机变量,则 差异度: 容易证明,马氏距离对一切非奇异线性变换都是不变的,这说明它不受特征量纲选择的影响。 10.1.3匹配测度 特指二元向量的相似性测度 p:两个物体都为1的变量个数 q:i物体为1,j物体为0的变量个数 r:i物体为0,j物体为1的变量个数 s:两个物体都为0的变量个数 t:t=p+q+r+s,所有变量的个数 匹配测度 简单匹配距离 对应的相似度函数 Jaccard系数(Tanimoto系数) 匹配测度 Dice系数 匹配测度 汉明距离 定义:汉明距离用于信息论中,它对应的是两个等长的字符串在相同位置上不同字符的个数。汉明重量是指一个字符串相对于与它等长的零字符串的汉明距离。 汉明距离是在信息误差检测和矫正码领域提出来的。 信号距离:在数据传输过程中信号数据位发生翻转的次数; 编辑距离(Levenshtein):两个字符之间有一个转成另一个所用的最少的编辑操作次数,操作包括:替换、插入、删除一个字符 匹配测度 其它匹配距离定义方法 Rao测度 Kulzinsky系数 等等 10.1.4相似度量 余弦相似度函数 该函数反映了两个向量之间夹角的余弦值,对放大和缩小相对变换无影响。一般在使用前需要对个元素进行无量纲化处理。 相似度量 皮尔逊相关系数(Pearson correlation coefficient) 相关系数是中心化的夹角余弦 相似度量 指数相关系数 为相应分量的协方差,n为矢量维数,不受量纲变化的影响 相似度量 Tanimoto测度 Tanimoto测度两个模式的共有特征和共占有特征的比。广义Jaccard系数,在二元属性下归约为Jaccard系数。 相似度量 广义Dice系数法 Dice系数的广义应用推广,与夹角余弦有相似之处,分母分别是两个向量长度的算术平均值与几何平均值。 相似度量 直方图间的相似性 距离是最常用的直方图之间的距离。 相似度量 当各特征值非负时,还可见到下列几种相似系数。 第二节 分层聚类 概念完全按照反映对象特征的数据把对象进行分类,这在统计上称为聚类分析。 聚类分析不同于因素分析:因素分析是根据所有变量间的相关关系提取公共因子;聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小类合并,如此分层依次进行; 聚类分析不同于判别分析:事先有了某种分类标准之后,判定一个新的研究对象应该归属到哪一类别,这在统计上则称为判别分析(discriminant analysis)。 层次聚类(hierarchical cluster) 层次聚类又称系统聚类,或分层聚类 层次聚类事先不需要确定要分多少类,聚类过程一层层进行,最后得出所有可能的类别结果,研究这根据具体情况确定最后需要的类别。 计算类间距离(与上面介绍的点间距离不同)的方法有很多,不同方法会得到不同的聚类结果,常用的是离差平方和法(Ward’s method),又称Ward法 例题:根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析 (表格数据未显示完整,有31个省份的6个经济指标) 以上结果的说明 首先把31个地区各自作为一类(共有31类)。第1步是把距离最近的两个地区21(海南)和地区30(宁夏)合并成一类。第2步被合并的是21和地区29(青海),这里的“21”实际上是指在第1步

您可能关注的文档

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档