模式识别(chapter3).pptx

  1. 1、本文档共87页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式识别(chapter3)

第3章 聚类分析 (Clustering Analysis) 3.1聚类分析的概念3.2模式相似性测度3.3类的定义与类间距离3.4第二章(聚类算法).ppt聚类的算法3.1 聚类分析的概念一、聚类分析的基本思想 ★相似的归为一类。 ★模式相似性的度量和聚类算法。 ★无监督分类(Unsupervised) 。二、特征量的类型 ★物理量----(重量、长度、速度) ★次序量----(等级、技能、学识) ★名义量----(性别、状态、种类)x2w2wWb21W1x13.1 聚类分析的概念三、方法的有效性 取决于分类算法和特征点分布情况的匹配。分类无效时的情况1.特征选取不当使分类无效。xx22w1wW21wwWbw2123WWW123xx112.特征选取不足可能使不同类别的模式判为一类。3.特征选取过多可能无益反而有害,增加分析负担并使分析效果变差。4.量纲选取不当。特征选取不同对聚类结果的影响下列是一些动物的名称:羊 (sheep) 狗 (dog)蓝鲨(blue shark) 蜥蜴 (lizard)毒蛇(viper) 猫 (cat)麻雀(sparrow) 海鸥 (seagull)金鱼(gold fish) 绯鲵鲣(red-mullet)蛙 (frog)要对这些动物进行分类,则不同的特征有不同的分法:(a) 按繁衍后代的方式分蜥蜴,毒蛇,麻雀,海鸥,金鱼,绯鲵鲣, 青蛙羊, 狗, 猫蓝鲨羊,狗,猫蜥蜴,毒蛇麻雀,海鸥 青蛙哺乳动物非哺乳动物(b) 按肺是否存在分金鱼绯鲵鲣蓝鲨有肺无肺(c) 按生活环境分金鱼绯鲵鲣 蓝鲨羊,狗,猫 蜥蜴,毒蛇麻雀,海鸥 青蛙水里两栖陆地(d) 按繁衍后代方式和肺是否存在分羊,狗,猫蜥蜴,毒蛇麻雀,海鸥 青蛙金鱼绯鲵鲣哺乳且有肺蓝鲨哺乳且无肺非哺乳且有肺非哺乳且无肺距离测度不同,聚类结果也不同数据的粗聚类是两类,细聚类为4类综上可见:选择什么特征?选择多少个特征?选择什么样的量纲?选择什么样的距离测度? 这些对分类结果都会产生极大影响。聚类过程遵循的基本步骤一、特征选择(feature selection) 尽可能多地包含任务关心的信息二、近邻测度(proximity measure) 定量测定两特征如何“相似”或“不相似” 三、聚类准则(clustering criterion) 以蕴涵在数据集中类的类型为基础四、聚类算法(clustering algorithm) 按近邻测度和聚类准则揭示数据集的聚类结构五、结果验证(validation of the results) 常用逼近检验验证聚类结果的正确性六、结果判定(interpretation of the results) 由专家用其他方法判定结果的正确性聚类应用的四个基本方向一、减少数据 许多时候,当数据量N很大时,会使数据处理变得很费力。因此可使用聚类分析的方法将数据分成几组可判断的聚类m(mN)来处理,每一个类可当作独立实体来对待。从这个角度看,数据被压缩了。二、假说生成 在这种情况下,为了推导出数据性质的一些假说,对数据集进行聚类分析。因此,这里使用聚类作为建立假说的方法,然后用其他数据集验证这些假说。三、假说检验 用聚类分析来验证指定假说的有效性。例如:考虑这样的假说“大公司在海外投资”。要验证这个假说是否正确,就要对大公司和有代表性的公司按规模、海外活跃度、成功完成项目的能力等进行聚类分析。从而来支持这个假说。四、基于分组的预测 对现有数据进行聚类分析,形成模式的特征,并用特征表示聚类,接下来,对于一个未知模式,就可以用前面的聚类来确定是哪一类?例如:考虑被同种疾病感染的病人数据集。先按聚类分析进行分类,然后对新的病人确定他适合的聚类,从而判断他病情。3.2 模式相似性测度 用于描述各模式之间特征的相似程度 ●距 离 测 度 ●相 似 测 度 ●匹 配 测 度⑴,当且仅当时,等号成立;⑵⑶一、距离测度(差值测度)测度基础:两个矢量矢端的距离测度数值:两矢量各相应分量之差的函数。常用的距离测度有:1.欧氏(Euclidean)距离 2.绝对值距离(街坊距离或Manhattan距离) 3.切氏(Chebyshev)距离 4.明氏(Minkowski)距离注意!马氏距离对一切非奇异线性变换都是不变的,这说明它不受特征量纲选择的影响,并且是平移不变的。上面的V的含义是这个矢量集的协方差阵的统计量,故马氏距离加入了对特征的相关性的考虑。现金识别例子(欧氏平均距离)数据样本介绍:10个文本文件文件名:rmb00.txt ……rmb09.txt每个文件有4个币种的数据,分别是: 100圆、50圆、20圆、10圆每个币种有新旧两种版本,4个方向,故有8个数据块:如100圆的8个数据块: data100a,data100b

文档评论(0)

2232文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档