- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第10章 对调查对象的分类 第一节 距离与相似性度量 内容 10.1.1测度空间定义 10.1.2 几种距离测度定义 10.1.3 匹配测度 10.1.4 相似度量 10.1.1测度空间 d(x, y) ≥ 0 (非负性) d(x, y) = 0 当且仅当 x = y (不可区分者的同一性) d(x, y) = d(y, x) (对称性) d(x, z) ≤ d(x, y) + d(y, z) (三角不等式) 10.1.2几种距离定义 欧几里德距离定义点 总结:X与Y的距离实质是(X-Y)的模:,计算该距离之前要标准化模式向量单位 几种距离定义 明可夫斯基距离公式:总结:L-p范数空间的距离定义,m=2:欧式距离相等,m=1:曼哈顿距离,m为无穷大:切比雪夫距离 几种距离定义 曼哈顿距离 切比雪夫距离 Camberra距离(Lance距离,Williams距离) 马氏距离(Mahalanobis)定义多变量向量 ,其均值为 协方差矩阵为定义服从同一分布,且协方差矩阵为 的随机变量,则 差异度:容易证明,马氏距离对一切非奇异线性变换都是不变的,这说明它不受特征量纲选择的影响。 10.1.3匹配测度 特指二元向量的相似性测度p:两个物体都为1的变量个数q:i物体为1,j物体为0的变量个数r:i物体为0,j物体为1的变量个数s:两个物体都为0的变量个数t:t=p+q+r+s,所有变量的个数 匹配测度 简单匹配距离对应的相似度函数 Jaccard系数(Tanimoto系数) 匹配测度 Dice系数 匹配测度 汉明距离定义:汉明距离用于信息论中,它对应的是两个等长的字符串在相同位置上不同字符的个数。汉明重量是指一个字符串相对于与它等长的零字符串的汉明距离。汉明距离是在信息误差检测和矫正码领域提出来的。信号距离:在数据传输过程中信号数据位发生翻转的次数;编辑距离(Levenshtein):两个字符之间有一个转成另一个所用的最少的编辑操作次数,操作包括:替换、插入、删除一个字符 匹配测度 其它匹配距离定义方法Rao测度 Kulzinsky系数等等 10.1.4相似度量 余弦相似度函数该函数反映了两个向量之间夹角的余弦值,对放大和缩小相对变换无影响。一般在使用前需要对个元素进行无量纲化处理。 相似度量 皮尔逊相关系数(Pearson correlation coefficient)相关系数是中心化的夹角余弦 相似度量 指数相关系数 为相应分量的协方差,n为矢量维数,不受量纲变化的影响 相似度量 Tanimoto测度Tanimoto测度两个模式的共有特征和共占有特征的比。广义Jaccard系数,在二元属性下归约为Jaccard系数。 相似度量 广义Dice系数法Dice系数的广义应用推广,与夹角余弦有相似之处,分母分别是两个向量长度的算术平均值与几何平均值。 相似度量 直方图间的相似性 距离是最常用的直方图之间的距离。 相似度量 当各特征值非负时,还可见到下列几种相似系数。 第二节 分层聚类 概念完全按照反映对象特征的数据把对象进行分类,这在统计上称为聚类分析。 聚类分析不同于因素分析:因素分析是根据所有变量间的相关关系提取公共因子;聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小类合并,如此分层依次进行; 聚类分析不同于判别分析:事先有了某种分类标准之后,判定一个新的研究对象应该归属到哪一类别,这在统计上则称为判别分析(discriminant analysis)。 层次聚类(hierarchical cluster) 层次聚类又称系统聚类,或分层聚类 层次聚类事先不需要确定要分多少类,聚类过程一层层进行,最后得出所有可能的类别结果,研究这根据具体情况确定最后需要的类别。 计算类间距离(与上面介绍的点间距离不同)的方法有很多,不同方法会得到不同的聚类结果,常用的是离差平方和法(Ward’s method),又称Ward法 例题:根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析 (表格数据未显示完整,有31个省份的6个经济指标) 以上结果的说明 首先把31个地区各自作为一类(共有31类)。第1步是把距离最近的两个地区21(海南)和地区30(宁夏)合并成一类。第2步被合并的是21和地区29(青海),这里的“21”实际上是指在第1步
您可能关注的文档
- 1_国家基本公共卫生服务项目实施与考核合编.ppt
- 圆盘锯片割刀word版合编.docx
- 云国学网上平台测试合编.docx
- 1C平均速度和瞬时速度合编.ppt
- 第9章SQL_Server_2008的安全机制精读.ppt
- 长房集团项目成本管理制度及操作指引合编.docx
- 掌中免税美妆专家金老师之防止口红脱妆的化妆技巧合编.docx
- 赵绍琴医案合编.docx
- 1操作界面与室内效果图制作流程合编.ppt
- 1房地产行政执法合编.ppt
- 浙江衢州市卫生健康委员会衢州市直公立医院高层次紧缺人才招聘11人笔试模拟试题参考答案详解.docx
- 浙江温州泰顺县退役军人事务局招聘编外工作人员笔试备考题库及参考答案详解一套.docx
- 江苏靖江市数据局公开招聘编外工作人员笔试模拟试题及参考答案详解.docx
- 广东茂名市公安局电白分局招聘警务辅助人员40人笔试模拟试题带答案详解.docx
- 江苏盐城市大丰区住房和城乡建设局招聘劳务派遣工作人员4人笔试模拟试题带答案详解.docx
- 浙江舟山岱山县东沙镇人民政府招聘笔试模拟试题及参考答案详解1套.docx
- 最高人民检察院直属事业单位2025年度公开招聘工作人员笔试模拟试题含答案详解.docx
- 浙江金华市委宣传部、中共金华市委网信办所属事业单位选调工作人员笔试备考题库及答案详解1套.docx
- 广东深圳市党建组织员招聘40人笔试模拟试题及答案详解1套.docx
- 江苏南京水利科学研究院招聘非在编工作人员4人笔试模拟试题及参考答案详解.docx
文档评论(0)