无监督学习和聚类.pptVIP

下载本文档

2
0
约3.85千字
约 43页
2024-04-28 发布于四川
举报
版权申诉

无监督学习和聚类.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第十章无监督学习和聚类10.1引言有监督学习和无监督学习：有监督训练过程

——训练样本集中每个样本的类别已经被标记

无监督训练过程

——使用未被标记的训练样本“无监督”方法非常有用，因为：收集并标记大型样本集非常费时费力

——例如：语音信息的记录逆向解决问题：用大量未标记样本集训练，再人工标记数据分组

——例如：数据挖掘的应用对于待分类模式性质会随时间变化的情况，使用无监督方法可以大幅提升分类器性能

——例：自动食品分类器中食品随季节而改变“无监督”方法非常有用，因为：用无监督方法提取一些对进一步分类很有用的基本特征

——独立于数据的“灵巧预处理”，“灵巧特征提取”揭示观测数据的一些内部结构和规律

——就能更有效设计有针对性的分类器10.2混合密度和可辨识性基本假设1.所有样本来自c种类别，c已知。2.每种类别的先验概率已知，3.样本的类条件概率密度具有确定的数学形式4.参数向量未知5.样本类别未标记混合密度目标和方法目标：使用从混合密度中取出的样本去估计未知的参数向量q。

一旦q已知时，将样本的混合密度分解为基本分量，据此设计最大后验（MAP）分类器。解的存在性假设样本数量无穷；用非参数技术可获得任意样本x上的概率

如果仅仅存在一个q满足，那么理论上存在解。

如果几个不同的q取值都产生相同的，那么不可能得到唯一的解。可辨识密度例子：不可辨识的离散分布混合密度例子：不可辨识的正态分布混合密度10.3最大似然估计最大似然估计最大似然估计先验概率未知时的最大似然估计先验概率未知时的最大似然估计10.4对混合正态密度的应用分量密度p(x|wi,qi)~N(mi,Si)三种情况:情况1：未知均值向量情况2：所有参数未知对协方差矩阵没有约束令p(x|?,?2)表示一个由两分量组成的混合密度: 假设?=x1,则:

对其他样本:

从而,

似然函数可以任意地大，参数解是奇异的。增加一个假设只取似然函数的局部最优点中对应最大有界值的那一个，假设似然函数在这个点附近的特性足够好，则有如下迭代算法: 其中:K-均值聚类K-均值聚类算法1（K-均值聚类）begaininitializen,c,μ1，μ2，…，μc do按照最近邻分类n个样本重计算until不再改变 returnμ1，μ2，…，μcendK-均值聚类复杂度O(ndcT)在实践中迭代次数通常小于样本的数量从这个算法中得到的结果既可以作为最终答案，也可以作为进一步计算的初始值K-均值聚类K-均值聚类无监督贝叶斯学习与ML估计类似,Bayesian估计技术也能用于无监督情况。假设如下：类别数c已知；先验概率已知；类条件概率密度的数学形式已知，但参数q未知；关于q的先验知识由概率密度P(q)表示；剩下的关于q的知识都存在于样本集中。根据Bayes准则假设样本互相独立或者利用递归(用Dn表示D中前面n个样本集合)如果p(?)在p(D|?)达到峰值的附近接近均匀分布，则p(?|D)也会在同样区域达到峰值。如果在的附近出现最主要的尖峰，则且因此,ML估计具有合理性。当数据量非常大的时候，ML估计和贝叶斯方法会取得近似一致的效果。在小样本集情况下，逼近效果不理想。ML方法更易实现。有监督学习和无监督学习之间的最明显不同:可辨别性、计算复杂性。可辨别性：对监督学习,缺少可辨别性表明求出的参数向量并不唯一，不带来严重问题。对无监督学习，缺少可辨别性，混合密度就不能分解为各种真实的分量。 ?p(x|Dn)仍然收敛到p(x),但p(x|?i,Dn)一般不会收敛到p(x|?i),这是理论上的障碍.计算复杂度对有监督学习，如果能找到充分的统计量，就会得到解析的解。对无监督学习，计算p(D|?)异常复杂。另外一种比较有监督和无监督学习的方法是用到混合密度，得到:考虑P(?1)=1的情况，所有样本来自于类别?1,此正好对应有监督学习，上式可化简为比较这两个方程,观察增加一个样本对?估计的影响.忽略用来归一化的分母。最主要区别是：对有监督学习SL,通过先验密度P