信息与计算科学专业英语作业.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息与计算科学专业英语作业.doc

 PAGE \* MERGEFORMAT 12 大连海洋大学 信息与计算科学专业英语作业 指导教师:董云影 学院:理学院 班级:信息11-1班 姓名:潘祥友 学号:1107110122 模糊C-均值的基础上最近的邻居间隔不完整数据的聚类算法 李丹,红谷,李咏张 电子与信息工程学院,大连理工大学,大连116024,中国 关键词: 聚类 模糊C-均值 数据不完整 最近邻的间隔 部分缺失数据集的聚类分析中的一个普遍问题。在本文中,缺少的属性表示为间隔,和基于最近邻的时间间隔不完整的数据的一种新的模糊C均值聚类算法。该算法估计的最近邻的区间表示缺少的属性使用的数据的属性分布信息集充分,可提高鲁棒性属性缺失的归责原则与其他数值插补方法的比较。同时,利用区间原型形成凸超多面体可缺少的属性的不确定性,同时也反映了集群的形状在某种程度上,这是在提高聚类分析的鲁棒性很有帮助。在UCI数据集上的实验结果的比较和分析,证明了该算法的性能。 1。景区简介 模糊C-均值(FCM)算法(Bezdek,1981)是一个有用的工具,用于聚类,将真正的S维数据集X?FX1N;X2;……;中古蒙古语RS分成几个集群内描述数据的底层结构,已被广泛应用于模式识别和数据挖掘。然而,在模式分类中的应用,许多数据集不完整,即数据集可以包含向量X,缺少一个或多个属性值,作为一个结果,数据采集,故障的测量误差,缺失值,随机噪声,等和FCM是不能直接适用于这样的不完整的数据集。 在不完全数据做模式识别问题可以追溯到20世纪60年代,当塞巴斯蒂(1962)介绍了一种基于概率假设的方法。随后,期望最大(EM)算法(Dempster,Laird, Rubin,1977)是用来处理不完整的数据和概率聚类(克劳克兰和贝斯福德,1988)。1998,提出了几种方法处理缺失值在FCM(宫本,高田,与umayahara,1998)。一个基本的战略,归责,代替缺失值由相应的属性的加权平均数。另一种方法,丢弃/忽视,忽略缺失值和计算的距离从剩余的坐标。2001,海瑟薇和贝兹德克提出其他策略继续不完全数据的聚类(海瑟薇和贝兹德克,2001)。一个简单的策略(全数据策略,WDS)删除所有的样本数据,包括从数据的缺失值,但策略是不可取的,消除了信息的丢失。另一种方法使用的局部距离策略(PDS),并计算出部分的距离使用所有可用的属性值,这个数量和规模的组件的使用比例的倒数。另外两个方法- Bezdek提出的(2001)属于插补方法,涉及的计算基于可用的信息替换缺失值估计。最佳完成战略(OCS)观的缺失值为一个优化问题,可在每次迭代中找到更好的估计缺失值。最近的原型策略(NPS)取代与最近的原型对应的属性缺失值。除了以上的方法,通过考虑信息为什么数据丢失,蒂姆,德林,和克鲁斯(2004)开发了一种模糊聚类算法从迦特GEVA算法和扩展。海瑟薇和贝兹德克(2002)使用三角不等式的近似方案的不完全关系数据聚类,和本田和桥(2004)划分的不完整的数据集分成几个线性模糊聚类的局部主成分的提取。 在本文中,采用最近邻规则的思想,基于最近邻的时间间隔不完整的数据的一种新的模糊C-均值聚类算法(fcm-nni)提出了。首先,由于缺少属性的不确定性,缺少的属性表示—以最近邻的间隔(NNI)基于邻信息,这是比上面提到的归责方法得到的数值更强大。其次,聚类问题可以因此被视为区间值数据的聚类,这将导致区间聚类原型而不是点原型。因此,在属性空间间隔形成凸hyperpolyhedrons原型,作为一种具有更复杂的几何结构的集群原型系统,可以提供失踪的属性的不确定性,同时也反映了集群的形状到一定程度,从而验证聚类模式更准确的聚类结果的鲁棒性。 本文的组织如下。第2节提出的FCM算法和区间值数据的聚类算法的简短描述(IFCM)基于聚类目标函数的最小化。最近邻区间表示丢失的属性和新的fcm-nni算法在3节。第4节提出了聚类的多个UCI数据集和比较我们的算法与FCM处理缺失值的各种方法的结果。最后,得出的结论是在第5。 2。区间值数据的聚类算法 2.1。模糊C-均值算法 模糊C-均值(FCM)算法将一套完整的数据x?FX1N;X2;……;中古蒙古语RS为C(模糊)通过最小化目标函数的聚类簇 JeU?VT?umikkxk vik22; 我?1?K?1 随着e1T约束 XC?UIK?1?K?;1;2;2Te……;氮; XC的 我?1 在XK?=?[?X2K?X1K型,同时,……],T是一个对象的数据,和XJ

文档评论(0)

tangtianxu1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档