基于isodata算法的Iris数据分类.pdf

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一.实验目的 通过对 Iris data 采用 Isodata 算法进行聚类, 掌握 Isodata 算法的原理以及具体实施 步骤。 二.实验原理 C均值算法比较简单,但它的自我调整能力也比较差。这主要表现在类别数不能改变, 受代表点初始选择的影响也比较大。 ISODATA算法的功能与 C 均值算法相比,在下列几方面 有改进。 1. 考虑了类别的合并与分裂, 因而有了自我调整类别数的能力。 合并主要发生在某一类 内样本个数太少的情况, 或两类聚类中心之间距离太小的情况。 为此设有最小类内样本数限 制 N ,以及类间中心距离参数 C 。若出现两类聚类中心距离小于 C 的情况,可考虑将此 两类合并。 分裂则主要发生在某一类别的某分量出现类内方差过大的现象,因而宜分裂成两个类 别,以维持合理的类内方差。给出一个对类内分量方差的限制参数 S ,用以决定是否需要 将某一类分裂成两类。 2. 由于算法有自我调整的能力,因而需要设置若干个控制用参数,如聚类数期望值 K , 每次迭代允许合并的最大聚类对数 L 、及允许迭代次数 I 等。 下面我们将 ISODATA算法的步骤列出: 步骤 1( 确定控制参数及设置代表点 ) 需确定的控制参数为,聚类期望数 K ,一个聚类中的最少样本数 N ,标准偏差控制参 数,用于控制分裂 S ,类间距离控制参数,用于控制合并 C ,每次迭代允许合并的最大聚 类对数 L ,允许迭代的次数 I 。设初始聚类数为 c 及聚类中心 mi ,i 1,2..., c 。 步骤 2( 分类 ) 对所有样本,按给定的 c 个聚类中心,以最小距离进行分类,即若 步骤 3( 撤消类内样本数过小类别 ) 若有任何一个类 j ,其样本数 Nj N ,则舍去 j ,令 c c 1 ,将 j 原样本分配 至其它类; 步骤 4( 更新均值向量 ) 按现有样本分类结果,调整均值参数 步骤 5( 计算类内平均距离 ) 每类中各样本离开均值的平均距离 步骤 6( 计算整个样本集偏离均值的平均距离 ) 步骤 7( 入口选择 ) 如这是最后一次迭代 ( 取决于迭代上限 I ) ,则转步骤 11 ,并设置 C 0 ,防止合并发 生。 如果 c K / 2 ,则转向步骤 8,执行分裂步骤; 如果 c 2 K ,则转向步骤 11,执行合并步骤。 步骤 8( 求各类内各分类标准偏差 ) 对每个聚类 j ,求其标准偏差 式中 yki 是 j 类中第 k 个样本的第 i 分量, mji 是 mj 的第 i 个分量, ij 是第 j 个聚类第 i 个分量的标准偏差, D是样本特征维数。 步骤 9( 求每类具有最大标准偏差的分量 ) 指每类具有最大标准偏差的分量。 步骤 10( 分裂计算步骤 ) 若任一个 j max , j 1,2,..., c 有 j max s ,并且有 (a) Dj D 且 Nj 2( N 1) ,或 有(b) c K / 2 ,则把 j 分裂成两个聚类,其中心相应为 m 与 m ,把原来的 m 取消,

文档评论(0)

130****5554 + 关注
官方认证
内容提供者

文档下载后有问题随时联系!~售后无忧

认证主体文安县滟装童装店
IP属地河北
统一社会信用代码/组织机构代码
92131026MA0G7C0L40

1亿VIP精品文档

相关文档