- 1、本文档共87页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式识别(chapter3)
第3章 聚类分析 (Clustering Analysis) 3.1聚类分析的概念3.2模式相似性测度3.3类的定义与类间距离3.4第二章(聚类算法).ppt聚类的算法3.1 聚类分析的概念一、聚类分析的基本思想 ★相似的归为一类。 ★模式相似性的度量和聚类算法。 ★无监督分类(Unsupervised) 。二、特征量的类型 ★物理量----(重量、长度、速度) ★次序量----(等级、技能、学识) ★名义量----(性别、状态、种类)x2w2wWb21W1x13.1 聚类分析的概念三、方法的有效性 取决于分类算法和特征点分布情况的匹配。分类无效时的情况1.特征选取不当使分类无效。xx22w1wW21wwWbw2123WWW123xx112.特征选取不足可能使不同类别的模式判为一类。3.特征选取过多可能无益反而有害,增加分析负担并使分析效果变差。4.量纲选取不当。特征选取不同对聚类结果的影响下列是一些动物的名称:羊 (sheep) 狗 (dog)蓝鲨(blue shark) 蜥蜴 (lizard)毒蛇(viper) 猫 (cat)麻雀(sparrow) 海鸥 (seagull)金鱼(gold fish) 绯鲵鲣(red-mullet)蛙 (frog)要对这些动物进行分类,则不同的特征有不同的分法:(a) 按繁衍后代的方式分蜥蜴,毒蛇,麻雀,海鸥,金鱼,绯鲵鲣, 青蛙羊, 狗, 猫蓝鲨羊,狗,猫蜥蜴,毒蛇麻雀,海鸥 青蛙哺乳动物非哺乳动物(b) 按肺是否存在分金鱼绯鲵鲣蓝鲨有肺无肺(c) 按生活环境分金鱼绯鲵鲣 蓝鲨羊,狗,猫 蜥蜴,毒蛇麻雀,海鸥 青蛙水里两栖陆地(d) 按繁衍后代方式和肺是否存在分羊,狗,猫蜥蜴,毒蛇麻雀,海鸥 青蛙金鱼绯鲵鲣哺乳且有肺蓝鲨哺乳且无肺非哺乳且有肺非哺乳且无肺距离测度不同,聚类结果也不同数据的粗聚类是两类,细聚类为4类综上可见:选择什么特征?选择多少个特征?选择什么样的量纲?选择什么样的距离测度? 这些对分类结果都会产生极大影响。聚类过程遵循的基本步骤一、特征选择(feature selection) 尽可能多地包含任务关心的信息二、近邻测度(proximity measure) 定量测定两特征如何“相似”或“不相似” 三、聚类准则(clustering criterion) 以蕴涵在数据集中类的类型为基础四、聚类算法(clustering algorithm) 按近邻测度和聚类准则揭示数据集的聚类结构五、结果验证(validation of the results) 常用逼近检验验证聚类结果的正确性六、结果判定(interpretation of the results) 由专家用其他方法判定结果的正确性聚类应用的四个基本方向一、减少数据 许多时候,当数据量N很大时,会使数据处理变得很费力。因此可使用聚类分析的方法将数据分成几组可判断的聚类m(mN)来处理,每一个类可当作独立实体来对待。从这个角度看,数据被压缩了。二、假说生成 在这种情况下,为了推导出数据性质的一些假说,对数据集进行聚类分析。因此,这里使用聚类作为建立假说的方法,然后用其他数据集验证这些假说。三、假说检验 用聚类分析来验证指定假说的有效性。例如:考虑这样的假说“大公司在海外投资”。要验证这个假说是否正确,就要对大公司和有代表性的公司按规模、海外活跃度、成功完成项目的能力等进行聚类分析。从而来支持这个假说。四、基于分组的预测 对现有数据进行聚类分析,形成模式的特征,并用特征表示聚类,接下来,对于一个未知模式,就可以用前面的聚类来确定是哪一类?例如:考虑被同种疾病感染的病人数据集。先按聚类分析进行分类,然后对新的病人确定他适合的聚类,从而判断他病情。3.2 模式相似性测度 用于描述各模式之间特征的相似程度 ●距 离 测 度 ●相 似 测 度 ●匹 配 测 度⑴,当且仅当时,等号成立;⑵⑶一、距离测度(差值测度)测度基础:两个矢量矢端的距离测度数值:两矢量各相应分量之差的函数。常用的距离测度有:1.欧氏(Euclidean)距离 2.绝对值距离(街坊距离或Manhattan距离) 3.切氏(Chebyshev)距离 4.明氏(Minkowski)距离注意!马氏距离对一切非奇异线性变换都是不变的,这说明它不受特征量纲选择的影响,并且是平移不变的。上面的V的含义是这个矢量集的协方差阵的统计量,故马氏距离加入了对特征的相关性的考虑。现金识别例子(欧氏平均距离)数据样本介绍:10个文本文件文件名:rmb00.txt ……rmb09.txt每个文件有4个币种的数据,分别是: 100圆、50圆、20圆、10圆每个币种有新旧两种版本,4个方向,故有8个数据块:如100圆的8个数据块: data100a,data100b
您可能关注的文档
最近下载
- (关于调整教学管理机构的通知)铜医发52号.doc
- 【原创】现浇箱梁盘扣式满堂支架计算书(手算).docx VIP
- 人教版历史九年级上册 第六单元 资本主义制度的初步确立测试卷(包含答案).doc
- 2023年杭州萧山义盛中心供销合作社招聘考试真题(含答案).pdf VIP
- 2023年福州市长乐区供销合作社联合社招聘考试真题.docx VIP
- 大学生职业生涯规划与发展 大学生职业生涯规划书.pdf VIP
- 大学生职业规划大赛《临床医学专业》生涯发展展示PPT.pptx
- 南京大学化学化工学院853物理化学(含结构化学)1997-2011考研真题汇编.pdf
- 部编版语文四年级上册第六单元大单元教学设计.pdf VIP
- 八年级地理上册地理期末试卷答案.docx VIP
文档评论(0)