- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
带有缺失数据的聚类分析方法.pdf
维普资讯
2003年 第 24卷 第 5期 华 北 工 学 院 学 报 Vo1.24 No.5 2003
(总第 91期) JOURNALOFNORTH CHINAINSTITUTEOFTECHNOLOGY (Sum No.91)
文章编号 :1006—5431(2003)O5—0357—03
带有缺失数据的聚类分析方法
毕 华,李济洪
(山西大学 数学系,山西 太原 030006)
摘 要 : 传统的聚类分析方法需要完全数据集 ,但有些情况下数据是不完全的,即包含缺失数据 ,这给聚
类分析带来了一定的困难.作者给出了一种迭代算法为缺失数据确定一个合理的替补值,构造出一个 “完
全”的数据集 ,逐步迭代进行聚类分析 ,并用实例详细阐述了该方法的步骤.
关键词 : 缺失数据;聚类分析 ;回归;条件期望
中图分类号: O212.4 文献标识码:A
TheM ethod ofClusterAnalysiswith M issing Data
BIHua,LIJi—hong
(Dept.ofMathematics,ShanxiUniversity,Taiyuan030006,China)
Abstract:Thecompletedataareneededforthetraditionalclusteranalysis.Ifthedatasetincludsmiss—
ingdata,itisdifficulttousetheclusteranalysis.Anterativealgorithm isofferedtodeterminetheratio—
nalsubstitutevalvesofthemissingdata.Aftergettinga “complete”dataset,theclusteranalysisisiter—
atedstepbystep.Theexampleisalsogiventoillustratethestepofthismethod.
Keywords:missingdata;clusteranalysis;regression;conditionalexpectation
聚类分析是研究分类问题的一种多元统计分析方法,目的是把分类对象按一定规则分成若干类 ,这
些类不是事先给定的,而是根据数据 的特征确定的.在同一类里的这些对象在某种意义上倾 向于彼此相
似 ,而在不同类里的对象倾 向于不相似.通常情况下,聚类过程需要完全数据 ,即不能有缺失数据.但在
实际工作 中,有些情况下数据是不完全的.这就给聚类分析带来了一定的困难.对于这种情况,如果删
除包含缺失数据的变量,会把有代表意义的变量剔除掉;如果删除掉具有缺失的部分观察记录而不考虑
这部分观察记录数据所蕴含的信息,又可能导致聚类分析的不全面,例如在后面的例子中会少掉一个省
的数据.作者利用与包含缺失数据的变量相关变量的辅助信息,在对这些相关变量之间的关系进行分析
的基础上建立一些能反映数据之间相互关系的模型,对数据进行推估,为缺失数据确定一个合理的替补
值,插补到原缺失数据的位置上,从而构造出一个 “完全”的数据集,以便逐步迭代进行聚类分析.
1 缺失值估计的基本原理
在许多实际问题中,变量之间是相关的,因此对含有缺失数据的变量可以用与之相关的变量的信息
给出估计.作者将含有缺失数据的变量作为因变量,其他变量作为 自变量建立 回归模型,用经验 回归方
程对缺失值进行估计.然后用估计值代替缺失值,重新估计 回归方程 ,对缺失值再重新估计.这样不断
地迭代 ,直到估计值稳定为止L1].
设多元随机变量为 (x , ,…,X ).对变量 x ,由回归分析的理论知,使得 E(Xp一厂(X ,Xz,…,
一 )。)达到最小的 厂(x ,x ,…,x一)。为条件数学期望 E(x lx ,X。,…,Xp一),即最优 回归函数.因
收稿 日期 :2003—06—18
作者简介:毕华(1979一),女,硕士生.主要从事
您可能关注的文档
- 4.1 《折一折,做一做》 教学设计 许来娥.doc
- 尽心尽职做好加油站经营和管理工作.doc
- 400米标准田径场的最新画线.doc
- 局部胰腺癌精确放疗和放化综合治疗.pdf
- 5、学习道德模范及身边好人好事活动实施方案.doc
- 山东各地古玩市场.doc
- 山东检察官入额考试AB卷.doc
- 7个理由告诉你 无线蓝牙耳机的必要性.doc
- 7字婚庆对联带横批.doc
- 8.2喷砂除锈质量检查.doc
- 2025广州银行外访催收团队专题招聘历年试题汇编及答案解析(夺冠).docx
- 2025年国考申论高分技巧实战卷.docx
- 2025年国考网络技术封闭进阶模拟试卷.docx
- 事业单位职测全真模拟卷:事业单位考试备考复习计划.docx
- 2025年省考行测申论写作冲刺试卷.docx
- 2025河北秦皇岛县(区)总工会工会招聘社工工作人员16人参考题库及答案解析(夺冠).docx
- 2025河南南阳市康复医院(第九人民医院)南阳市中心医院紧密型医联体医院人才招聘27人笔试题库带答案.docx
- 2025第二批次贵州安顺市重点人才“蓄水池” 需求岗位专项简化程序招聘7人笔试参考题库带答案解析.docx
- 2025广东南粤银行珠海分行招聘历年题库带答案解析.docx
- 2025河北承德市公安局公开招聘警务辅助人员70名历年真题题库带答案解析.docx
最近下载
- 洱海.ppt.ppt VIP
- (高清版)DB14∕T 1736-2024 医疗护理员服务规范.pdf VIP
- 06J403-1楼梯栏杆选型.pdf VIP
- 历年全国初中应用物理知识竞赛.pdf VIP
- 贵州学法考试题库及答案.docx VIP
- 〖文〗第16课《白杨礼赞》课件+2025-2026学年统编版语文八年级上册.pptx VIP
- 沪教版【word直接打印】小学六年级数学奥数测试题及答案 .pdf VIP
- 盲沟施工方案.docx VIP
- 超星学习通意义生活:符号学导论(四川大学)学习通测试及答案.doc VIP
- 雅马哈RX-V573_V473_Manual_Chinese说明书中文版文献.pdf
原创力文档


文档评论(0)