- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式识别第十一讲第八章无监督学习
第八章 无监督学习 (聚类分析,Clustering ) 以前讨论的分类方法都是在已知训练样本类别的基础上进行的。 4.两种聚类问题及解决的方法: 1. 基于概率密度函数估计的方法 第二种方法:(聚类,clustering) 按照样本间的相似性把样本集划分成若干组。划分的结果应使某种表示聚类质量的准则函数最大或最小。 8.2 动态聚类算法的一般步骤 令Y表示样本的集合{y(i)} (其中i为样本序号),Ω是有序的类别标签集合,每一标签和一个样本相对应,如果在Y中有N个样本,则Ω中有N个标签和它对应,每一个是ω1,ω2,…,ωc 之一。 一般步骤如下 1.选定某种距离度量作为样本间相似性的度量。 C-均值聚类算法的两种类型 C-均值聚类算法的收敛性分析 C-均值聚类算法的性能 上述的C均值算法是在假定类别数为C的情况下进行的。 8.4 分级聚类方法 聚类分析的任务是把N个没有类别标签的样本分成一些合理的类。 在近邻法的快速算法中,我们曾用一棵树来组织样本集,这是一种自上而下(由顶向下)的样本划分法。我们也可以由底向上把N个样本顺序组织成一些聚类。 用K表示第K次划分,则聚类数C=N-K+1,K称为划分或聚类的水平(级别、层次)。 两个聚类Γi和Γj间的相似性度量△(Γi,Γj)是分级聚类的基础。 分级聚类算法: 1.初始设置Γj=yj,其中 j?I (当前类标号集合,初始值为 I={1,…,N},N是样本数)。即开始时每个样本都是一类。 8.6 无监督学习中的一些问题: 点集的真实结构 采用的相似性度量 采用的聚类准则 样本数的多少 都影响聚类的结果 聚类数 …… 动态聚类,计算的效率高,但不能反映数据的概率结构,不一定反映数据的真实结构。 在极端情况下 每个样本都是一类,C=N 全部样本属一类, C=1 第一次划分时(开始),N个样本分成N个类。 第二次划分时,合并两个类,分为N-1类。 第三次划分时,再合并两个类,分为N-2类。 …… 第N次划分时,再合并两个类,分为1类。 生物分类时分级聚类的例子:门、纲、目、科。 由底向上的分级聚类可以表示为一棵树。 y2 y4 y1 y6 y5 y3 100 90 80 70 30 K=1 2 3 4 5 6 类间相似度 2.最远距离 △(Γi,Γj)= 3.均值间距离 △(Γi,Γj)=δ(mi,mj) mi,mj是Γi,Γj的均值。 常用的相似性度量有: 1.最近距离 △(Γi,Γj)= δ(y,y’)是y与y’ 间的任一种距离度量 2.在集合{Γj | j∈I}中找一对满足条件 △(Γi,Γk)= 3.把Γi并入Γk中,去掉Γi,把i从类标号集合I中删去。若 I的基数=2(只剩下两类),停止。否则转2 一般地说,单峰子集分离,要估计密度函数,计算量大,样本数要求多,易受噪声影响。 * 8.1 引言 在实际应用中,有时我们只能用没有类别标签的样本集来进行分类工作。称为无监督学习,无教师学习,聚类分析。 有哪些类(组)? 类的定义?多少类?都不知道。 此时需要研究模式分布的内在结构、组织。目标是根据模式间的相似性把它们分成一些类(组)。 例如 相似的紧凑性定义 紧凑型聚类 直线(平面)型聚类 1.聚类的定义 不好定义。大多数基于“相似”、“相象”,或面向某一特定的类型。 如果特征是d维特征空间的一个向量(一个点),那么聚类可以描述为:含有相对较高密度点的一个连续区域,这个区域和其它高密度点的区域分开,而中间是低密度点的区域。 这种聚类的定义和二维、三维时的视觉效果一致。 生命科学 ? 动物学 植物学 ? ? 医学 精神病学 病理学 ? ? 社会科学 考古学 ? 社会学 ? ? 地球科学 地质学 ? 地理学 ? ? ? 许多科学领域都使用了聚类分析的方法: 聚类分析是人类的一种最基本的智能活动。是从个体到类别的一个概括,是进行抽象的基础。 单独处理各个模式(个体)有时是不可能的。人们倾向于将它们分类,每类有共同的属性。 2.聚类分析的应用 1)数据挖掘、信息恢复、信号压缩与编码、机器学习 N个数据,→m(N)个聚类,每个聚类中的样本都用一个代表性的量表示。 2)图象分割。比如从遥感图像中分割田野和森林区。 3)预测;产生假设,检验假设 未知的物体∈某一聚类,聚类中各个模式具有这一类的共性 = 预测未知物体的特性。 3. 聚类的一般步骤 1)特征的提取和选择 特征应充分反映模式的信息,同时尽
您可能关注的文档
最近下载
- YS-T 578-2006 氟钽酸钾-行业标准规范.pdf
- 资本市场评级那些事.html.pdf VIP
- YS/T 427-2012_五氧化二钽 行业标准.pdf
- 糖尿病酮症酸中毒诊疗指南(中国2型糖尿病防治指南((2022年-2023年)版).docx VIP
- YST751-2024 钽及钽合金牌号和化学成分-报批稿.pdf VIP
- Dsc-931中文说明书.doc VIP
- (2025)患者发生非计划性拔管的应急预案.docx VIP
- 7.2《归园田居(其一)》课件(共18张PPT) 2024-2025学年统编版高中语文必修上册.pptx VIP
- 设计构成与应用:立体构成与应用PPT教学课件.pptx VIP
- 肝脏特异性对比剂对肝脏疾病诊断.ppt VIP
原创力文档


文档评论(0)