- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ISODATA算法ISODATA算法
ISODATA算法汇报文档算法介绍
背景
ISODATA(迭代自组织数据分析算法)来自模糊数学领域,是统计模式识别中非监督动态聚类算法的一种。
在许多科学实验、经济管理和日常生活中,往往需要对某些指标(或事物)按一定的标准(相似的程度、亲疏关系等)进行分类处理。例如,根据生物的某些形态对其进行分类,图像识别中对图形的分类等。这种对客观事物按一定要求和规律进行分类的数学方法主要就是聚类分析法,聚类分析是数理统计中研究“物以类聚”的一种多元分析方法,而模糊聚类分析法是通过数学工具根据事物的某些模糊性质进行定量地确定、合理地分型划类的数学方法。
2、算法基本思想
J . C. Bezdek 在普通分类基础上, 利用模糊集合的概念提出了模糊分类问题。认为被分类对象集合X 中的样本x [i] 以一定的隶属度属于某一类,即所有的样本都分别以不同的隶属度属于某一类。因此,每一类就被认为是样本集X 上的一个模糊子集,于是,每一种这样的分类结果所对应的分类矩阵,就是一个模糊矩阵。ISODA TA 聚类方法预先确定样本应该分成几类,从先给出的一个初始分类出发,根据目标函数, 用数学迭代计算的方法反复修改模糊矩阵,直到合理为止。
3、算法基本原理
设有限样本集(论域)X={ X1,X2,…Xn },每一个样本有s个指标,Xj=( xj1,xj2,…xjs) ,j=1,2,…n.
及样本的特征矩阵:
欲把它分为c类(2cn),则n个样本划分为c类的模糊分类矩阵为:
其满足三个条件:(i=1,2,…c;j=1,2,…n)
定义c个聚类中心向量聚类中心V={ V1,V2,…Vc }.其中 Vi=( vi1,vi2,…vis },i=1,2,…c.
第i 类的中心vi 即人为假想的理想样本,它对应的s个指标值是该类样本所对应的指标值的平均值:
定义矩阵U = [ uij ]c ×n的全体构成样本集X 分成c 类的软划分空间:
其中, uij 表示第j 个样本Xj 隶属于第i 类的隶属度。构造目标泛函:
其中: ‖x j - vi ‖2 表示第j 个样本与第i 类中心之间欧氏距离的平方; J m (U ,V ) 表示所有待聚类样本与所属类的聚类中心之间距离的平方和。
为了确定最佳分类结果,就是寻求最佳划分矩阵U 和对应的聚类中心V ,使J m (U ,V ) 达到极小,即J m( U3, V3 ) = min { J m ( U , V ) , U ∈Mf c } 。Dunn 证明了求上述泛函的极小值的问题可解,Bezdek 给出了当m ≥1 且xk ≠vi 时迭代算法。
4.具体算法步骤
(1) 给定控制参数
K:预期的聚类中心数目。
θn :每一聚类中最少的样本数目,如果少于此数就不能作为一个独立的聚类。
θs:一个聚类域中样本距离分布的标准差(阈值) 。
θc:两个聚类中心之间的最小距离,如果小于此数,两个聚类合并。
L :每次迭代允许合并的最大聚类对数目。
I :允许的最多迭代次数。
给定n 个文档集合D = { d1 , d2 , ?, dn} , 令J = 1 (迭代次数) , 预选c 个起始聚合中心, Zj ( J ) ,j = 1 ,2 ?, c 。
(2) 计算每个样本与聚合中心距离: D( xk ,Zj ( J ) ) 。若:D ( xk , Zj ( J ) ) = min
j =1 ,2 ?, c.{ D( xk , Zj ( J ) ) , k =1 ,2 , ?, n} ,则: xk ∈wi 。把全部样本划分到c 个聚合中去,且nj 表示各子集Xj 中的样本数目。
(3) 判断:若nj θn , j = 1 ,2 ?, c 则舍去子集Xj , c = c - 1 ,返回(2) 。
(4) 计算修改聚合中心: ,j = 1 ,3 , ?c 。
(5) 计算类内距离平均值Dj :
(6) 计算类内总平均距离D(全部样本对其相应聚类中心的总平均距离) :
(7) 判别分裂、合并及迭代运算等步骤。
a1 如迭代运算次数已达I 次,即最后一次迭代,置θc = 0 ,跳到(1) ,运算结束。
b1 如c F K2 ,即聚类中心的数目等于或不到规定值的一半,则转(8) ,将已有的聚类分裂。
c1 如迭代运算的次数是偶数, 或c E 2 K, 则不进行分裂,跳到(11) , 若不符合上述2 个条件, 则进入(8) ,进行分裂处理。
(8) 计算每个聚合的标准偏差向量:
式中: xi ——x 的第i 个分量;
Zji ——Zj 的第i 个分量;
d ——维数。
(9) 求出每个聚合的最大标准偏差分量σjmax :
则把该集合分为2 个新的聚合, 聚合中心分别为:
令: c = c + 1 , J
您可能关注的文档
最近下载
- 成都市金牛区2020-2021学年下学期一年级期末考试语文试卷(部编版).pdf VIP
- 儿科“一科一品”之做有温度的护理人.pptx VIP
- 2025年广州数学中考试题及答案.doc VIP
- 中文释义 PASS图解速记高中词汇正序版.xlsx VIP
- 辅警招聘考试公安基础知识(情景分析题)模拟试卷3(题后含答案及解析).pdf VIP
- 工程质量风险分级管控清单 .pdf VIP
- 生物医学工程先进制造:第一章 绪论-2015.ppt VIP
- 培养员工归属感培养员工归属感.ppt VIP
- 古方上篇后八方.张志峰老师讲解和答疑2016.3.5.doc VIP
- JingChaDaXue《灭火救援指挥》期末试卷(A)参考答案.docx VIP
文档评论(0)