- 1、本文档共77页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第31页,共77页,星期日,2025年,2月5日第32页,共77页,星期日,2025年,2月5日④对每个聚合中的每个样本,计算:2)(||)(||1IZxnniikiiii--=r,ci,...2,1=iir表示cJ减少的部分。2)(||)(||1IZxnnjikjjij-+=r,cj,...2,1=,ij1ijr表示cJ增加的部分。令:}{minijijilrr1=,若iiilrr,则把样本)(ikx移到聚合中心lw中,并修改聚合中心和cJ值。])([11)()1()(ikiiiixIZnIZIZ--+=+])([11)()1()(iklljlxIZnIZIZ-+-=+)()()1(iliiccIJIJrr--=+⑤判断:若)()1(IJIJcc+,则1+=II,返回④。否则,算法结束。第33页,共77页,星期日,2025年,2月5日第34页,共77页,星期日,2025年,2月5日第35页,共77页,星期日,2025年,2月5日第36页,共77页,星期日,2025年,2月5日Jc与C的关系曲线上述C-均值算法,其类型数目假定已知,为c。对于未知时,可以令c逐渐增加。使用C-均值算法,误差平方和Jc随c的增加而单调减少。最初,由于c较小,类型的分裂会使Jc迅速减小,但当c增加到一定数值时,Jc的减小速度会减慢,直到c=n时,Jc=0。Jc-C关系曲线如下图。第37页,共77页,星期日,2025年,2月5日图中,曲线的拐点A对应着接近最优的c值。并非所有的情况都容易找到Jc-C关系曲线的拐点,此时c值将无法确定。下面介绍一种确定类型数目c的方法。第38页,共77页,星期日,2025年,2月5日2.ISODATA聚类算法ISODATA算法:IterativeSelf-OrganizingDataAnalysisTechniguesAlgorithm,迭代自组织的数据分析算法。ISODATA算法特点:可以通过类的自动合并(两类合一)与分裂(一类分为二),得到较合理的类型数目c。具体算法步骤: ⑴给定控制参数 k:预期的聚类中心数目。四、c-均值与ISODATA聚类算法(续)第39页,共77页,星期日,2025年,2月5日第40页,共77页,星期日,2025年,2月5日第41页,共77页,星期日,2025年,2月5日第42页,共77页,星期日,2025年,2月5日第43页,共77页,星期日,2025年,2月5日第44页,共77页,星期日,2025年,2月5日第45页,共77页,星期日,2025年,2月5日第46页,共77页,星期日,2025年,2月5日第47页,共77页,星期日,2025年,2月5日第48页,共77页,星期日,2025年,2月5日第49页,共77页,星期日,2025年,2月5日第50页,共77页,星期日,2025年,2月5日第51页,共77页,星期日,2025年,2月5日ISODATA算法中,起始聚合中心的选取对聚类过程和结果都有较大影响,如果选择的好,则算法收敛快,聚类质量高。注意:ISODATA与C-均值算法的异同点: ①都是动态聚类算法。 ②C-均值简单,ISODATA复杂。 ③C-均值中,类型数目固定,ISODATA中,类型数目可变。第52页,共77页,星期日,2025年,2月5日各类呈椭圆状分布时C-均值算法效果不好第53页,共77页,星期日,2025年,2月5日五、基于样本和核相似性度量基于样本和核相似性度量的聚类算法采用一个“核”来代表一个类核Kj可以是一个函数,一个点集,等等样本和核之间相似性的度量准则函数,最小化的目标第54页,共77页,星期日,2025年,2月5日第1页,共77页,星期日,2025年,2月5日两种简单的聚类算法第2页,共77页,星期日,2025年,2月5日两种简单的聚类算法(续)2.最大最小距离聚类算法例:样本分布如图所示。第3页,共77页,星期日,2025年,2月5日第4页,共77页,星期日,2025年,2月5日第5页,共77页
文档评论(0)