基于isodata算法的Iris数据分类.docVIP

下载本文档

9
0
约3.96千字
约 24页
2021-10-15 发布于广东
举报
版权申诉

基于isodata算法的Iris数据分类.doc

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE / NUMPAGES 试验目的通过对Iris data接受Isodata算法进行聚类，把握Isodata算法的原理以及具体实施步骤。二．试验原理 C均值算法比较简洁，但它的自我调整力量也比较差。这主要表现在类别数不能转变，受代表点初始选择的影响也比较大。ISODATA算法的功能与C均值算法相比，在以下几方面有改进。　　1.考虑了类别的合并与分裂，因而有了自我调整类别数的力量。合并主要发生在某一类内样本个数太少的状况，或两类聚类中心之间距离太小的状况。为此设有最小类内样本数限制，以及类间中心距离参数。假设消灭两类聚类中心距离小于的状况，可考虑将此两类合并。　　分裂那么主要发生在某一类别的某重量消灭类内方差过大的现象，因而宜分裂成两个类别，以维持合理的类内方差。给出一个对类内重量方差的限制参数，用以打算是否需要将某一类分裂成两类。　　2.由于算法有自我调整的力量，因而需要设置假设干个把握用参数，如聚类数期望值，每次迭代允许合并的最大聚类对数、及允许迭代次数等。　　下面我们将ISODATA算法的步骤列出：步骤1(确定把握参数及设置代表点)　　需确定的把握参数为，聚类期望数，一个聚类中的最少样本数，标准偏差把握参数，用于把握分裂，类间距离把握参数，用于把握合并，每次迭代允许合并的最大聚类对数，允许迭代的次数。设初始聚类数为及聚类中心。步骤2(分类)　　对全部样本，按给定的个聚类中心，以最小距离进行分类，即假设步骤3(撤消类内样本数过小类别)　　假设有任何一个类，其样本数，那么舍去，令，将原样本安排至其它类；　　步骤4(更新均值向量)　　按现有样本分类结果，调整均值参数　　　　　步骤5(计算类内平均距离)　　每类中各样本离开均值的平均距离 　　　　步骤6(计算整个样本集偏离均值的平均距离)　　步骤7(入口选择)　　如这是最终一次迭代(取决于迭代上限)，那么转步骤11，并设置，防止合并发生。　　假设，那么转向步骤8，执行分裂步骤；　　假设，那么转向步骤11，执行合并步骤。　　步骤8(求各类内各分类标准偏差)　　对每个聚类，求其标准偏差　　　　　式中是类中第个样本的第重量，是的第个重量，是第个聚类第个重量的标准偏差，D是样本特征维数。　　步骤9(求每类具有最大标准偏差的重量)　　指每类具有最大标准偏差的重量。　　步骤10(分裂计算步骤) 　　假设任一个有，并且有(a) 且，或有(b) ，那么把分裂成两个聚类，其中心相应为与，把原来的取消，且令，由于与值设置不当将会导致影响到其它类别，因此与可按以下步骤计算：给定一值，；　　　　其中值应使中的样本到与的距离不同，但又应使中的样本仍旧在分裂后的新样本类中。　　步骤11(计算类间聚类中心距离)　　类与类的类间距离 　　步骤12(列出类间距离过近者)　　比较与并将小于的按上升次序排列　　　　该队列最大个数是把握合并对数的参数　　步骤13(执行合并)　　从类间距离最大的两类开头执行合并过程，此时需将与合并，得 　　　　　　且，从第二个开头，那么要检查其涉及类别是否已在前面合并过程中被合并，如两者并未被合并，那么执行合并过程。　　步骤14(结束步骤)　　如是最终一次迭代那么终止，否那么可依据需要转步骤1或步骤2，转步骤1是为了更改把握数。迭代计数要加1。以上是整个ISODATA算法的计算步骤。可以看出ISODATA算法与C均值算法一样，都是以与代表点的最小距离作为样本聚类的依据，因此比较适合各类物体在特征空间以超球体分布的方式分布，对于分布外形较简单的状况需要接受别的度量。ISODATA算法与C均值算法的主要不同在于自我把握与调整的力量不同。它们的另一个不同点是，C均值算法的类均值参数在每个样本归入时随即修改，因而称为逐个样本修正法，而ISODATA算法的均值向量或聚类中心参数是在每一次迭代分类后修正的，因而称为成批样本修正法。试验过程及结果分析依据算法过程进行仿真，首先设置算法中所需要的把握参数，把握参数的选取有多种选择组合，这里，我们先设置一组把握参数，对Iris data进行聚类，说明算法的实施过程以及对得到的结果进行分析。参数设置如以下图所示：其中，确定初始聚类中心个数后，在150个原始数据中随机选择10个作为聚类中心，然后对原始