- 1、本文档共61页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式识别-第13讲-非监督学习方法讲解
* * 【动态聚类】 C 均值聚类方法用于非监督模式识别的问题: 1. 要求类别数已知; 2. 是最小方差划分,并不一定能反映内在分布; 3. 与初始划分有关,不保证全局最优。 C 均值算法 * 在类别数未知情况下使用C—均值算法时,可以假设类别数是逐步增加的,例如对c=1,2,3,…分别使用该算法。 准则函数 是随c的增加而单调地减少的。如果样本集的合理聚类数为c类,当类别数继续增大时,相当于将聚类很好的类别又分成子类,则 值虽然继续减少但会呈现平缓趋势,如果作一条 值随c变化的曲线,则其拐点对应的类别数就比较接近于最优聚类数。 【C均值算法-类别数未知】 * 但是并非所有的情况都能找到明显的转折点。在无明显的转折点时,这种选择最佳分类数的方法将失效。一般需要利用先验知识对不同的聚类结果进行分析比较。 【C均值算法-类别数未知】 * C 均值算法比较简单,但它的自我调整能力也比较差。这主要表现在类别数必须事先确定,不能改变,这种主观确定数据子集数目并不一定符合数据集自身的特点,受代表点初始选择的影响也比较大。 类似于C 均值算法,ISODATA算法的聚类中心也是通过样本均值的迭代运算来决定。与C均值算法不同的是, ISODATA算法 将硬性确定聚类数目改成给出这个数目的期望值,作为算法的一个控制量。在算法中又加上分裂与合并机制,增加了一些试探性步骤和人机交互的“自组织”处理方式,因而能使聚类结果比较适应数据集的内在特性。 ISODATA算法与C 均值算法相比,在下列几方面有改进。 1.考虑了类别的合并与分裂,因而有了自我调整类别数的 能力。 合并主要发生在某一类内样本个数太少的情况,或两类 聚类中心之间距离太小的情况。 【迭代自组织的数据分析算法-ISODATA】 * 分裂则主要发生在某一类别的某分量出现类内方差过大的现象,因而宜分裂成两个类别,以维持合理的类内方差。给出一个对类内分量方差的限制参数 ,用以决定是否需要将某一类分裂成两类。 2.由于算法有自我调整的能力,因而需要设置若干个控 制用参数。 迭代自组织算法流程图如图5-7所示。 【迭代自组织的数据分析算法-ISODATA】 * ISODATA算法的具体步骤如下: 【迭代自组织的数据分析算法-ISODATA】 * 【迭代自组织的数据分析算法-ISODATA】 * 【迭代自组织的数据分析算法-ISODATA】 * 【迭代自组织的数据分析算法-ISODATA】 * 【迭代自组织的数据分析算法-ISODATA】 * 步骤9(求每类具有最大标准偏差的分量) 步骤10(分裂计算步骤) 【迭代自组织的数据分析算法-ISODATA】 * 合并处理: 步骤11(计算全部聚类中心之间的距离) 【迭代自组织的数据分析算法-ISODATA】 * 步骤12(列出类间距离过近者) 步骤13(执行合并) 【迭代自组织的数据分析算法-ISODATA】 * 步骤14(结束步骤) 如果迭代运算次数已达最大的迭代次数I,即是最后一次迭代,则算法结束;否则,如果需要由操作者改变输入参数,转入步骤1,设计相应的参数;否则,转入步骤2。到了本步运算,迭代运算的次数加1。 以上是整个ISODATA算法的计算步骤。可以看出ISODATA算法与C 均值算法一样,都是以与代表点的最小距离作为样本聚类的依据,因此比较适合各类物体在特征空间以超球体分布的方式分布,对于分布形状较复杂的情况需要采用别的度量。ISODATA算法与C均值算法的主要不同在于自我控制与调整的能力不同。 【迭代自组织的数据分析算法-ISODATA】 * ISODATA算法流程图 【迭代自组织的数据分析算法-ISODATA】 * 【基于样本和核的相似性度量的动态聚类算法】 * 【基于样本和核的相似性度量的动态聚类算法】 * 【基于样本和核的相似性度量的动态聚类算法】 * 【近邻函数准则算法】 定义 第七章 非监督学习方法 * 【近邻函数准则算法】 第i类和第j类间最小近邻函数值定义为: 相似性分析 第i类内最大连接损失记为: aimax 第i类与第j类之间的连接损失定义为bij,它的设计目标是:如果两类间的最小近邻值大于任何一方的类内的最大连接损失时,损失代价就是正的,从而应该考虑把这两类合并 第七章 非监督学习方法 * 【近邻函数准则算法】 总类间损失: 相似性分析 准则函数: 算法步骤: 计算距离矩阵 用距离矩阵计算近邻矩阵 计算近邻函数矩阵 在L 中,每个点与其最近邻连接,形成初始的划分 对每两个类计算rij 和aimax,ajmax ,只要rij 小于aimax、ajmax中的任何一个,就合并两类(建立
您可能关注的文档
- 标准化工作规划讲述.docx
- 标准化基础讲述.ppt
- 巴金《家》课文简介精要.ppt
- 标准化工地月考核评分汇总表讲述.doc
- 巴金_怀念萧珊精要.pptx
- 标准化建设文件讲述.doc
- 标准化团队活动管理讲述.ppt
- 巴尔扎克《高老头》精要.ppt
- 巷道滞后注浆围岩控制理论与实践精要.doc
- 标准化工地试验室讲述.doc
- 220kV变电站主变压器泡沫喷淋灭火系统防误动控制方案研究.docx
- 2024消防水泵房施工方案.docx
- 密闭电石炉净化系操作说明--课件.ppt
- 小儿大动脉炎的科普知识.pptx
- 【备战25年高考数学】题型06 7类三角函数与三角恒等变换解题技巧(原卷版).docx
- 【备战25年高考数学】题型06 7类三角函数与三角恒等变换解题技巧(原卷版) (2).docx
- 2011年高考数学试卷(理)(天津)(空白卷).docx
- 【备战25年高考数学】题型08 10类球体的外接球及内切球解题技巧(解析版).docx
- 【备战25年高考数学】题型09 6类圆锥曲线离心率解题技巧(解析版).docx
- 【备战25年高考数学】题型08 10类球体的外接球及内切球解题技巧(原卷版).docx
最近下载
- 2025统编版(2024)小学道德与法治一年级下册教学计划.docx VIP
- 幼儿园教育评价概述 幼儿园教育评价的要素课件.ppt
- 16J604 塑料门窗(建筑图集).docx
- 第一单元写作《写出人物的特点》课件2024-2025学年统编版语文七年级下册.pptx VIP
- Q/CR 546.4-2016 - 动车组用涂料与涂装 第4部分:转向架用涂料及涂层体系.pdf
- 2019春人教版音乐二年级下册全册教案.doc VIP
- 2024年秋季苏科版八年级物理上册全册教学课件(2024年新教材).pptx
- 城市轨道交通信号施工全套教学课件.pptx
- 矿山股份合同模板5篇.docx
- 采购部门降本增效实施方案.pptx
文档评论(0)