- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式识别第十一讲-第八章 无监督学习PPT
8.4 分级聚类方法 聚类分析的任务是把N个没有类别标签的样本分成一些合理的类。 在极端情况下 每个样本都是一类,C=N 全部样本属一类, C=1 在近邻法的快速算法中,我们曾用一棵树来组织样本集,这是一种自上而下(由顶向下)的样本划分法。我们也可以由底向上把N个样本顺序组织成一些聚类。 第一次划分时(开始),N个样本分成N个类。 第二次划分时,合并两个类,分为N-1类。 第三次划分时,再合并两个类,分为N-2类。 …… 第N次划分时,再合并两个类,分为1类。 用K表示第K次划分,则聚类数C=N-K+1,K称为划分或聚类的水平(级别、层次)。 生物分类时分级聚类的例子:门、纲、目、科。 由底向上的分级聚类可以表示为一棵树。 y2 y4 y1 y6 y5 y3 100 90 80 70 30 K=1 2 3 4 5 6 类间相似度 两个聚类Γi和Γj间的相似性度量△(Γi,Γj)是分级聚类的基础。 2.最远距离 △(Γi,Γj)= 3.均值间距离 △(Γi,Γj)=δ(mi,mj) mi,mj是Γi,Γj的均值。 常用的相似性度量有: 1.最近距离 △(Γi,Γj)= δ(y,y’)是y与y’ 间的任一种距离度量 分级聚类算法: 1.初始设置Γj=yj,其中 j?I (当前类标号集合,初始值为 I={1,…,N},N是样本数)。即开始时每个样本都是一类。 2.在集合{Γj | j∈I}中找一对满足条件 △(Γi,Γk)= 3.把Γi并入Γk中,去掉Γi,把i从类标号集合I中删去。若 I的基数=2(只剩下两类),停止。否则转2 8.6 无监督学习中的一些问题: 点集的真实结构 采用的相似性度量 采用的聚类准则 样本数的多少 都影响聚类的结果 聚类数 …… 动态聚类,计算的效率高,但不能反映数据的概率结构,不一定反映数据的真实结构。 一般地说,单峰子集分离,要估计密度函数,计算量大,样本数要求多,易受噪声影响。 第八章 无监督学习 (聚类分析,Clustering ) 以前讨论的分类方法都是在已知训练样本类别的基础上进行的。 8.1 引言 在实际应用中,有时我们只能用没有类别标签的样本集来进行分类工作。称为无监督学习,无教师学习,聚类分析。 有哪些类(组)? 类的定义?多少类?都不知道。 此时需要研究模式分布的内在结构、组织。目标是根据模式间的相似性把它们分成一些类(组)。 例如 相似的紧凑性定义 紧凑型聚类 直线(平面)型聚类 生命科学 ? 动物学 植物学 ? ? 医学 精神病学 病理学 ? ? 社会科学 考古学 ? 社会学 ? ? 地球科学 地质学 ? 地理学 ? ? ? 许多科学领域都使用了聚类分析的方法: 聚类分析是人类的一种最基本的智能活动。是从个体到类别的一个概括,是进行抽象的基础。 单独处理各个模式(个体)有时是不可能的。人们倾向于将它们分类,每类有共同的属性。 2.聚类分析的应用 1)数据挖掘、信息恢复、信号压缩与编码、机器学习 N个数据,→m(N)个聚类,每个聚类中的样本都用一个代表性的量表示。 2)图象分割。比如从遥感图像中分割田野和森林区。 3)预测;产生假设,检验假设 未知的物体∈某一聚类,聚类中各个模式具有这一类的共性 = 预测未知物体的特性。 3. 聚类的一般步骤 1)特征的提取和选择 特征应充分反映模式的信息,同时尽量减少冗余。 2)确定proximity度量(相近性) 用来刻画两个模式的相似性(similarity)或不相似性(dissimilarity)。 3)聚类的准则 取决于问题本身,和专家的意见。 如有时认为紧凑的合理,有时认为线型的合理. 聚类准则一般用目标函数或某些规则表示。 4)聚类算法 在定义了Proximity度量和聚类准则后,要设计一个好的算法,得到好的聚类。 5)聚类结果的验证 检验聚类结果的合理性 ,一般由领域的专家来判定。 ? 除了上述步骤外,有时还要做“是否有聚类倾向(趋势)”分析,作各种实验,分析数据是否有聚类的结构,还是随机的数据。 不同的特征,不同的相似性度量,不同的聚类准则,不同的算法,对同样的数据可能会得出完全不同的结果。 4.两种聚类问题及解决的方法: 1. 基于概率密度函数估计的方法 2. 基于样本间相似性程度的聚类法 各类样本混合起来,要把属于各类的样本分开。 第一种方法: S1 S2 这
您可能关注的文档
- 有机磷农药中毒病例示教PPT.ppt
- 有源器械注册 法规 培训讲解PPT.ppt
- 有理数的除法第1课时(新人教版)PPTPPT.ppt
- 有钱人是如何考虑问题的?PPT.ppt
- 有限空间专项治理讲稿PPT.ppt
- 有趣的半圆形PPT1PPT.ppt
- 有机化学波谱PPT.ppt
- 服务基层 信念导航PPT.ppt
- 服务营销(全)PPT.ppt
- 有线电视基础知识课件PPT.ppt
- 2025年无人机低空医疗物资投放社会效益报告.docx
- 2025年再生塑料行业包装回收利用产业链重构研究.docx
- 《AI眼镜周边产品市场机遇:2025年终端销售与需求增长洞察》.docx
- 2025年坚果加工行业深加工技术突破与市场拓展策略报告.docx
- 2025年通信芯片行业技术竞争与未来趋势报告.docx
- 《2025年生鲜电商配送冷链事故分析与预防措施》.docx
- 《商业航天融资新趋势2025民营卫星企业资本涌入估值分析市场动态》.docx
- 2025年能源绿色健康行业创新技术与市场应用报告.docx
- 2025年无人机低空医疗救援通信方案分析报告.docx
- 2025年烹饪机器人行业市场集中度分析报告.docx
最近下载
- 中国马克思主义与当代 2024版 教材课后思考题答案.docx
- 人工智能推动医学研究的创新突破.pptx VIP
- 玄隐遗密(含黄帝内经).pptx VIP
- 《社会调查研究与方法》期末复习考试题库(带答案).docx VIP
- 创业基础(暨南)中国大学MOOC慕课 章节测验期末考试答案(期末考试题目从章节测验中选出,题目没对上,可以在章节测验中查找).docx VIP
- 消防中级维保考试题库2000题.pdf
- 眼的解剖与生理.ppt VIP
- 上汽荣威R550维修手册1_描述与运作 ——原厂 2009 390 页 pdf.pdf VIP
- 学习华为:以客户为中心的营销体系.pptx VIP
- 家长会心得体会五年级简短9篇.docx VIP
原创力文档


文档评论(0)