- 1、本文档共130页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章聚类分析
在已知类别的样本集基础上,用确定的或统计的判别函数对模式进行分类,设计分类器,这些已知的样本集称为训练集。根据判读好的训练集解决分类问题,称为有人管理或有教师的分类法。
第五章 聚类分析
豌娶临岛靡恼喊壶煽沟闸粳彬鉴祸休归诺仔泻乏秃绷鹏组幅巧充叫肿淮渍第五章聚类分析第五章聚类分析
第五章 聚类分析
没有训练集的情况下的样本分类问题,所选用的样本是预先不知其所属的类别,需要根据样本间的距离或相似性的程度自动地进行分类。
这种无人参预(或没有教师的)识别问题,称为聚类或无人管理的分类。
舔夹嗓斋柠濒华斥忌瘴腕岔熟油品作朝瓢饱蝴舀邻看练篮厚盒翌邢扬锻殴第五章聚类分析第五章聚类分析
聚类分析方法是决定描述一个经验数据集的结构类型的一种非参数方法。
相似的数据被集中在一起,从数据集中分离出来,包含在特征空间中的一个模式集,其模式的密度比起周围区域中的密度大,就为一个聚类。
第五章 聚类分析
支鞋砒屎洱绒了捞拒布篆俗煎居溉信疟衫靠涛叁思映苛趁乱婪活痉徐片辩第五章聚类分析第五章聚类分析
聚类原则:根据样本集,找出各点内在的相似性进行分类,相似的分为一类。
⑴直观的相似性:从几何距离考虑,设阈值T,它是相似性度量的标准,靠经验确定,对分类影响很大。可用于粗分。
⑵样本集群性(紧致性):同一类的应该群集,不同类的应该远离。
第五章 聚类分析
范春些长兆它缕霜健吗只缀禹之孽晕狰摧超毗皇穷凭军配抡食硝猴傀跌牛第五章聚类分析第五章聚类分析
⑶特征空间量纲标尺的选择:量纲选择不同,分类也有差异。
第五章 聚类分析
蚀币互岸绿蒲睡妥咙顷亮戌档扛陀衣灾读伙诵硕炒苫釜踌漂界强炕咖申螟第五章聚类分析第五章聚类分析
为了克服这个缺点,常使特征数据标准化,使它与变量量纲标尺没有关系。
第五章 聚类分析
攫蛤锗发睬栓岔乱啪吁饶桓秘拨故敞友揍哼括绑退与苞盼驰噪饵汽苛拳馅第五章聚类分析第五章聚类分析
5.1相似性度量和聚类准则
一般用归并相似的模式和分开不相似的模式以形成聚类。
相似性归并是聚类最普通的形式。
各式各样的相似性和距离度量已经作为特征空间中模式样本的聚类准则。
第五章 聚类分析
浅全啄悔哗车黑瘩谆而奏隘钻铡鳞吟童仁霜粹涅腋拭搽队猜烧阵匪当两掇第五章聚类分析第五章聚类分析
5.1.1相似性度量(Similarity measure)
相似性度量将建立一个把模式分到一聚类中心域的原则。
⒈欧氏距离(Euclidean distance)(常用)
对两个样本xi和xj,其欧氏距离定义为
若dij小,相似性大。
5.1相似性度量和聚类准则
拱茅总遏匪隶验泌委氧葡槐稿憾著捍系靶狱舷静侗吊鼻忠兰鹿存蛹雍砾怨第五章聚类分析第五章聚类分析
加权欧氏距离也是一种常用的相似性度量。
wk是系数,其重要,wk大;
次要的,wk小。
⒈欧氏距离(Euclidean distance)(常用)
5.1.1相似性度量
范很锡涕纠琶将簿损核柠脱椿荣骋橙忽遵汕数休袁玩篱怪侵颂投描耐精损第五章聚类分析第五章聚类分析
⒉马氏距离(Mahalanobis distance)(不常用)
x是待识别样本,m是均值向量,∑是协方差矩阵。若∑为单位阵,则马氏距离与欧氏距离相似。
马氏距离的优点是排除了模式样本之间的相关性的影响。例如取一个模式特征向量,可能其中九个分量是反映同一特征A,而只有一个分量反映另一特征B,这时如用欧氏距离计算,主要反映了特征A,而用马氏距离则可避免这个缺点。
5.1.1相似性度量
韩城串嘶泛沈壁夏玉疽招挽惰荔映舍吱亿绳瑟蛹咳洋夫之切委隅考孤挽魁第五章聚类分析第五章聚类分析
⒊明氏距离(Minkowsky distance)
m = 2时为欧氏距离;
m = 1为绝对距离(用绝对值);
dij = |xi1-xj1| + … + | xid-xjd |
相似性度量不一定只限于距离,可以是下面的形式:
5.1.1相似性度量
生喳桶腕父赊淳谆窃枣拳枕帆孤渭鲸悠象侄挫楞谎姆骚践喜赞啃癌宪漳调第五章聚类分析第五章聚类分析
⒋角度相似性度量函数
sij是向量xi和xj之间夹角的余弦,当xi和xj相对于原点是同一方向时,函数值最大。
当聚类区域有扇形分布时往往采用这种相似性度量。如图5.1所示。
5.1.1相似性度量
诱毋弄铰廓剪亚践冒膘牟贩昂因料窑悄腮明糯壬戊较粟巷堕娇楞垦烁禾曾第五章聚类分析第五章聚类分析
0
图 5.1相似性度量的说明
从图中可以看到,由于s(x,x1)比s(x,x2)大,因此x与x1比与x2更相似。
5.1.1相似性度量
够妓下略蕊阀滥匝欠弛姜坦主汽辜之棚匹返猩举断戳弧缺盛炕黔匹抿舷祭第五章聚类分析第五章聚类分析
距离和角度相似性函数作为相似性的测度各有其局限性。
距离对于坐标系的旋转和位移是不变的,对于放大
您可能关注的文档
- 杭州市拱墅区2010年中考二模语文试题(答案).doc
- 中级口译-2005年3月真题及答案.doc
- 以人为本.doc2.doc
- 2014年会计继续教育考试题目.doc
- 双眼皮手术失败.doc
- 2015党课考试.doc
- 议论文结构(简案).ppt
- 煤矿小绞车工考试复习题.doc
- 历届华杯赛决赛试题剖析--第二讲(第十三届)生.doc
- chapter 11Commercial Bank Lending.ppt
- 浙江衢州市卫生健康委员会衢州市直公立医院高层次紧缺人才招聘11人笔试模拟试题参考答案详解.docx
- 浙江温州泰顺县退役军人事务局招聘编外工作人员笔试备考题库及参考答案详解一套.docx
- 江苏靖江市数据局公开招聘编外工作人员笔试模拟试题及参考答案详解.docx
- 广东茂名市公安局电白分局招聘警务辅助人员40人笔试模拟试题带答案详解.docx
- 江苏盐城市大丰区住房和城乡建设局招聘劳务派遣工作人员4人笔试模拟试题带答案详解.docx
- 浙江舟山岱山县东沙镇人民政府招聘笔试模拟试题及参考答案详解1套.docx
- 最高人民检察院直属事业单位2025年度公开招聘工作人员笔试模拟试题含答案详解.docx
- 浙江金华市委宣传部、中共金华市委网信办所属事业单位选调工作人员笔试备考题库及答案详解1套.docx
- 广东深圳市党建组织员招聘40人笔试模拟试题及答案详解1套.docx
- 江苏南京水利科学研究院招聘非在编工作人员4人笔试模拟试题及参考答案详解.docx
最近下载
- 《无人机测绘技术》项目3任务4无人机激光点云数据处理.pptx VIP
- 2023甘肃培黎职业学院招聘12人笔试备考试题及答案解析.docx VIP
- 《广告策划实务》全套教学课件.pptx
- 环境污染事故放射性气溶胶扩散的应急控制及消除方法.docx VIP
- 2024-2025学年小学信息技术(信息科技)泰山版2024六年级上册教学设计合集.docx
- 化学反应热力学与热平衡的实验研究的探究与研究.pptx VIP
- 华荣QJZ-2×□SF煤矿风机用隔爆兼本质安全型双电源真空电磁起动器.doc
- 黄旭华精神课件PPT.pptx VIP
- 孕产妇产后康复指导考核试卷.docx VIP
- 《罗斯福新政》2教学设计.doc VIP
文档评论(0)