第十章无监督习与聚类.pptVIP

下载本文档

0
0
约3.09千字
约 31页
2019-02-02 发布于江苏
举报
版权申诉

第十章无监督习与聚类.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第十章无监督习与聚类

第十章无监督学习与聚类 10.0 监督学习与无监督学习监督学习与无监督学习的最大区别在于训练样本是否有类别标号，无类别标号的称为无监督学习；监督学习与无监督学习也被称为有教师学习与无教师学习。 10.1 混合密度及可辨识性从理论上讲，无监督学习可以看作是一个混合密度的估计问题：所有样本都来自于c种类别，c已知；每种类别的先验概率已知；类条件概率的数学形式已知，但参数未知；样本类别未被标记。混合密度样本可以看作是按如下方式产生的：先以概率决定其所属类别，然后根据概率密度生成一个具体的样本x。因此x样本的产生概率为：可辨识性不可辨识：如果无论样本的数目有多少，都不存在唯一的解，则称密度是不可辨识的；完全不可辨识：如果参数的任何部分都无法求出，则称为完全不可辨识；大多数的混合密度是可以辨识的，但也存在某些混合密度是无法辨识的。混合0-1分布假设样本x的概率是由两个0-1分布混合而成，两个分布的先验概率相等，参数分别为则混合概率为：即使可以统计出，也无法求解出参数，这是一个完全不可辨识问题。 10.2 聚类准则函数误差平方和准则将样本分成c个子集D1, …, Dc，ni为第i个子集的样本数，mi为样本均值：误差平方和准则：散布矩阵类内散布矩阵：类间散布矩阵：总体散布矩阵：散布准则基于行列式的散布准则：基于不变量的散布准则：准则函数的优化穷举法优化：聚类准则函数的优化是组合最优问题，是一个NP难题，将n个样本分到c个类别有cn/c!种分法，穷举计算是不现实的，只能寻找次优方法解决；迭代最优化：随机设置初始聚类，计算将样本x从Di聚类移到Dj聚类是否能够使准则函数减小，减小则做此修改，否则不修改。 10.3 k-均值聚类 begin initialize 样本数n，聚类数c，初始聚类中心m1, …, mc； do 按照最近邻mi分类n个样本；重新计算聚类中心m1, …, mc； until mi不再改变； return m1, …, mc; end 例10.1 将19个样本分成2个聚类，采用欧氏距离度量。 x1=(0,0)t, x2=(1,0)t, x3=(0,1)t, x4= (1,1)t, x5=(2,1)t, x6=(1,2)t, x7=(2,2)t, x8=(3,2)t, x9=(6,6)t, x10=(7,6)t, x11=(8,6)t, x12= (7,7)t, x13=(8,7)t, x14=(9,7)t, x15=(7,8)t, x16=(8,8)t, x17=(9,8)t, x18=(8,9)t, x19=(9,9)t 聚类结果模糊k-均值聚类 k-均值算法的每一步迭代中，每一个样本都被认为完全属于某一个类别。作为改进版本，可以引入模糊的概念，假定每个样本以某种隶属度函数属于某个类别；样本x对第i个聚类的隶属度可以定义为：其中mi为第i个聚类的均值，b1为控制不同类别混合程度的自由参数。模糊k-均值聚类算法 begin initialize n, c, b, m1, …, mc; do 计算n个样本对c个类别的隶属度：重新计算各个聚类的均值m1, …, mc; until m1, …, mc变化很小； return m1, …, mc。 k-均值聚类的特点 k-均值算法可以看作是对平方误差准则函数的贪心搜索算法；聚类结果受初始聚类中心的选择影响很大，不同的初始聚类中心会导致不同的聚类结果。 10.4 层次聚类 begin initialize c, c’?n, Di?{xi}, i=1,…,n; do c’?c’-1 求最接近的聚类，如Di和Dj；合并Di和Dj； until c’=c; return c个聚类; end 层次聚类的树图层次聚类的特点层次聚类不用初始化聚类中心，因此聚类结果不受初始聚类中心的影响；需要定义类别之间的相似性度量；当样本数比较多时，算法的计算量比较大（算法第3步）。聚类结果同样是对平方误差准则函数的贪心优化结果。聚类算法存在的问题（一）准则函数的选择聚类算法存在的问题（二）特征量纲的影响（缩放坐标轴

您可能关注的文档

文档评论（0）

155****8706 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第十章无监督习与聚类.pptVIP