基于isodata算法的Iris数据分类.pdf

下载文档

3
0
约6.76千字
约 30页
2021-06-16 发布于河北
举报
版权申诉
保障服务

基于isodata算法的Iris数据分类.pdf

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一．实验目的通过对 Iris data 采用 Isodata 算法进行聚类，掌握 Isodata 算法的原理以及具体实施步骤。二．实验原理 C均值算法比较简单，但它的自我调整能力也比较差。这主要表现在类别数不能改变，受代表点初始选择的影响也比较大。 ISODATA算法的功能与 C 均值算法相比，在下列几方面有改进。 1. 考虑了类别的合并与分裂，因而有了自我调整类别数的能力。合并主要发生在某一类内样本个数太少的情况，或两类聚类中心之间距离太小的情况。为此设有最小类内样本数限制 N ，以及类间中心距离参数 C 。若出现两类聚类中心距离小于 C 的情况，可考虑将此两类合并。分裂则主要发生在某一类别的某分量出现类内方差过大的现象，因而宜分裂成两个类别，以维持合理的类内方差。给出一个对类内分量方差的限制参数 S ，用以决定是否需要将某一类分裂成两类。 2. 由于算法有自我调整的能力，因而需要设置若干个控制用参数，如聚类数期望值 K ，每次迭代允许合并的最大聚类对数 L 、及允许迭代次数 I 等。下面我们将 ISODATA算法的步骤列出：步骤 1( 确定控制参数及设置代表点 ) 需确定的控制参数为，聚类期望数 K ，一个聚类中的最少样本数 N ，标准偏差控制参数，用于控制分裂 S ，类间距离控制参数，用于控制合并 C ，每次迭代允许合并的最大聚类对数 L ，允许迭代的次数 I 。设初始聚类数为 c 及聚类中心 mi ,i 1,2..., c 。步骤 2( 分类 ) 对所有样本，按给定的 c 个聚类中心，以最小距离进行分类，即若步骤 3( 撤消类内样本数过小类别 ) 若有任何一个类 j ，其样本数 Nj N ，则舍去 j ，令 c c 1 ，将 j 原样本分配至其它类；步骤 4( 更新均值向量 ) 按现有样本分类结果，调整均值参数步骤 5( 计算类内平均距离 ) 每类中各样本离开均值的平均距离步骤 6( 计算整个样本集偏离均值的平均距离 ) 步骤 7( 入口选择 ) 如这是最后一次迭代 ( 取决于迭代上限 I ) ，则转步骤 11 ，并设置 C 0 ，防止合并发生。如果 c K / 2 ，则转向步骤 8，执行分裂步骤；如果 c 2 K ，则转向步骤 11，执行合并步骤。步骤 8( 求各类内各分类标准偏差 ) 对每个聚类 j ，求其标准偏差式中 yki 是 j 类中第 k 个样本的第 i 分量， mji 是 mj 的第 i 个分量， ij 是第 j 个聚类第 i 个分量的标准偏差， D是样本特征维数。步骤 9( 求每类具有最大标准偏差的分量 ) 指每类具有最大标准偏差的分量。步骤 10( 分裂计算步骤 ) 若任一个 j max , j 1,2,..., c 有 j max s ，并且有 (a) Dj D 且 Nj 2( N 1) ，或有(b) c K / 2 ，则把 j 分裂成两个聚类，其中心相应为 m 与 m ，把原来的 m 取消，

您可能关注的文档

文档评论（0）

130****5554 + 关注: 官方认证

内容提供者

文档下载后有问题随时联系！~售后无忧

咨询Ta 进入空间

认证主体文安县滟装童装店

IP属地河北

统一社会信用代码/组织机构代码: 92131026MA0G7C0L40

1亿VIP精品文档

更多 >

基于isodata算法的Iris数据分类.pdf