带有缺失数据的聚类分析方法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
带有缺失数据的聚类分析方法.pdf

维普资讯 2003年 第 24卷 第 5期 华 北 工 学 院 学 报 Vo1.24 No.5 2003 (总第 91期) JOURNALOFNORTH CHINAINSTITUTEOFTECHNOLOGY (Sum No.91) 文章编号 :1006—5431(2003)O5—0357—03 带有缺失数据的聚类分析方法 毕 华,李济洪 (山西大学 数学系,山西 太原 030006) 摘 要 : 传统的聚类分析方法需要完全数据集 ,但有些情况下数据是不完全的,即包含缺失数据 ,这给聚 类分析带来了一定的困难.作者给出了一种迭代算法为缺失数据确定一个合理的替补值,构造出一个 “完 全”的数据集 ,逐步迭代进行聚类分析 ,并用实例详细阐述了该方法的步骤. 关键词 : 缺失数据;聚类分析 ;回归;条件期望 中图分类号: O212.4 文献标识码:A TheM ethod ofClusterAnalysiswith M issing Data BIHua,LIJi—hong (Dept.ofMathematics,ShanxiUniversity,Taiyuan030006,China) Abstract:Thecompletedataareneededforthetraditionalclusteranalysis.Ifthedatasetincludsmiss— ingdata,itisdifficulttousetheclusteranalysis.Anterativealgorithm isofferedtodeterminetheratio— nalsubstitutevalvesofthemissingdata.Aftergettinga “complete”dataset,theclusteranalysisisiter— atedstepbystep.Theexampleisalsogiventoillustratethestepofthismethod. Keywords:missingdata;clusteranalysis;regression;conditionalexpectation 聚类分析是研究分类问题的一种多元统计分析方法,目的是把分类对象按一定规则分成若干类 ,这 些类不是事先给定的,而是根据数据 的特征确定的.在同一类里的这些对象在某种意义上倾 向于彼此相 似 ,而在不同类里的对象倾 向于不相似.通常情况下,聚类过程需要完全数据 ,即不能有缺失数据.但在 实际工作 中,有些情况下数据是不完全的.这就给聚类分析带来了一定的困难.对于这种情况,如果删 除包含缺失数据的变量,会把有代表意义的变量剔除掉;如果删除掉具有缺失的部分观察记录而不考虑 这部分观察记录数据所蕴含的信息,又可能导致聚类分析的不全面,例如在后面的例子中会少掉一个省 的数据.作者利用与包含缺失数据的变量相关变量的辅助信息,在对这些相关变量之间的关系进行分析 的基础上建立一些能反映数据之间相互关系的模型,对数据进行推估,为缺失数据确定一个合理的替补 值,插补到原缺失数据的位置上,从而构造出一个 “完全”的数据集,以便逐步迭代进行聚类分析. 1 缺失值估计的基本原理 在许多实际问题中,变量之间是相关的,因此对含有缺失数据的变量可以用与之相关的变量的信息 给出估计.作者将含有缺失数据的变量作为因变量,其他变量作为 自变量建立 回归模型,用经验 回归方 程对缺失值进行估计.然后用估计值代替缺失值,重新估计 回归方程 ,对缺失值再重新估计.这样不断 地迭代 ,直到估计值稳定为止L1]. 设多元随机变量为 (x , ,…,X ).对变量 x ,由回归分析的理论知,使得 E(Xp一厂(X ,Xz,…, 一 )。)达到最小的 厂(x ,x ,…,x一)。为条件数学期望 E(x lx ,X。,…,Xp一),即最优 回归函数.因 收稿 日期 :2003—06—18 作者简介:毕华(1979一),女,硕士生.主要从事

文档评论(0)

zijingling + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档