- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十章 无监督习与聚类
第十章 无监督学习与聚类 10.0 监督学习与无监督学习 监督学习与无监督学习的最大区别在于训练样本是否有类别标号,无类别标号的称为无监督学习; 监督学习与无监督学习也被称为有教师学习与无教师学习。 10.1 混合密度及可辨识性 从理论上讲,无监督学习可以看作是一个混合密度的估计问题: 所有样本都来自于c种类别,c已知; 每种类别的先验概率 已知; 类条件概率的数学形式已知 ,但参数 未知; 样本类别未被标记。 混合密度 样本可以看作是按如下方式产生的:先以概率 决定其所属类别 ,然后根据概率密度 生成一个具体的样本x。 因此x样本的产生概率为: 可辨识性 不可辨识:如果无论样本的数目有多少,都不存在唯一的解 ,则称密度 是不可辨识的; 完全不可辨识:如果参数 的任何部分都无法求出,则称为完全不可辨识; 大多数的混合密度是可以辨识的,但也存在某些混合密度是无法辨识的。 混合0-1分布 假设样本x的概率是由两个0-1分布混合而成,两个分布的先验概率相等,参数分别为 则混合概率为: 即使可以统计出 , 也无法求解出参数 ,这是一个完全不可辨识问题。 10.2 聚类准则函数 误差平方和准则 将样本分成c个子集D1, …, Dc,ni为第i个子集的样本数,mi为样本均值: 误差平方和准则: 散布矩阵 类内散布矩阵: 类间散布矩阵: 总体散布矩阵: 散布准则 基于行列式的散布准则: 基于不变量的散布准则: 准则函数的优化 穷举法优化:聚类准则函数的优化是组合最优问题,是一个NP难题,将n个样本分到c个类别有cn/c!种分法,穷举计算是不现实的,只能寻找次优方法解决; 迭代最优化:随机设置初始聚类,计算将样本x从Di聚类移到Dj聚类是否能够使准则函数减小,减小则做此修改,否则不修改。 10.3 k-均值聚类 begin initialize 样本数n,聚类数c,初始聚类中心m1, …, mc; do 按照最近邻mi分类n个样本; 重新计算聚类中心m1, …, mc; until mi不再改变; return m1, …, mc; end 例10.1 将19个样本分成2个聚类,采用欧氏距离度量。 x1=(0,0)t, x2=(1,0)t, x3=(0,1)t, x4= (1,1)t, x5=(2,1)t, x6=(1,2)t, x7=(2,2)t, x8=(3,2)t, x9=(6,6)t, x10=(7,6)t, x11=(8,6)t, x12= (7,7)t, x13=(8,7)t, x14=(9,7)t, x15=(7,8)t, x16=(8,8)t, x17=(9,8)t, x18=(8,9)t, x19=(9,9)t 聚类结果 模糊k-均值聚类 k-均值算法的每一步迭代中,每一个样本都被认为完全属于某一个类别。作为改进版本,可以引入模糊的概念,假定每个样本以某种隶属度函数属于某个类别; 样本x对第i个聚类的隶属度可以定义为: 其中mi为第i个聚类的均值,b1为控制不同类别混合程度的自由参数。 模糊k-均值聚类算法 begin initialize n, c, b, m1, …, mc; do 计算n个样本对c个类别的隶属度: 重新计算各个聚类的均值m1, …, mc; until m1, …, mc变化很小; return m1, …, mc。 k-均值聚类的特点 k-均值算法可以看作是对平方误差准则函数的贪心搜索算法; 聚类结果受初始聚类中心的选择影响很大,不同的初始聚类中心会导致不同的聚类结果。 10.4 层次聚类 begin initialize c, c’?n, Di?{xi}, i=1,…,n; do c’?c’-1 求最接近的聚类,如Di和Dj; 合并Di和Dj; until c’=c; return c个聚类; end 层次聚类的树图 层次聚类的特点 层次聚类不用初始化聚类中心,因此聚类结果不受初始聚类中心的影响; 需要定义类别之间的相似性度量; 当样本数比较多时,算法的计算量比较大(算法第3步)。 聚类结果同样是对平方误差准则函数的贪心优化结果。 聚类算法存在的问题(一) 准则函数的选择 聚类算法存在的问题(二) 特征量纲的影响(缩放坐标轴
您可能关注的文档
- 第十章 统伦理与中国特色企业.ppt
- 第十章 讼保障制度与程序.ppt
- 第十章 组文化与组织变革.ppt
- 第十章 领行为与管理1.ppt
- 第十章 铸图和铸型图的绘制.ppt
- 第十章 其辨证方法简介.ppt
- 第十章 企业值评估(财务管理-西南财经大学).ppt
- 第十章 公共理中的责任与伦理.ppt
- 第十章 各种养物质的相互关系--2016.02.ppt
- 第十章 产品场和货币市场的一般均衡.ppt
- 2025年智能电网柔性直流输电技术在我国西部地区应用前景.docx
- 7.2 弹力-人教版八年级物理下册.pptx
- 2025年智能电网柔性直流输电技术在智能变电站中的应用研究.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化存储中的应用.docx
- 2025年智能电网柔性直流输电技术在新能源并网中的应用研究.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化控制中的应用.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化预测中的应用.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化服务中的应用.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化运维中的应用.docx
- 2025年智能电网柔性直流输电技术智能化保护系统研究.docx
最近下载
- 整本书阅读+《红岩》 统编版八年级语文上册.pptx VIP
- 孙永强《财务管理》武汉大学-第9章-短期资产管理.pptx VIP
- CY14-1B轴向柱塞泵说明书.pdf VIP
- 蒸汽发生器安装工程方案(3篇).docx
- (正式版)B 4706.9-2008 家用和类似用途电器的安全 剃须刀、电推剪及类似器具的特殊要求.docx VIP
- 2021年(广西壮族自治区)壮族自治区高中学业水平合格考英语真题(带答案).pdf VIP
- 《智能故障诊断》课件.ppt VIP
- 【长租公寓】冠寓运营管理手册.docx VIP
- 2023年江西中医药大学计算机科学与技术专业《操作系统》科目期末试卷B(有答案).docx VIP
- 融合新闻:通往未来新闻之路-暨南大学-中国大学MOOC慕课答案.pdf VIP
原创力文档


文档评论(0)