- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于MCD的稳健主成分算法及其实证分析
基于 M CD 的稳健主成分算法 及其实证分析
王斌会 陈一非
(暨南大学统计系 ,广东广州 ,510632)
摘要 :主成分分析方法是在经济管理中经常使用的多元统计分析方法 ,在变量降维方面扮演着很 重要的角色 ,是进行多变量综合评价的有力工具 。但传统的主成分分析对于异常值十分敏感 ,计 算结果很容易受到异常值影响 ,而实际数据常包含异常情况 ,通常分析很少考虑它们的作用 。本 文基于 MCD 估计提出一种稳健的主成分分析方法 ,模拟和实证分析结果表明 ,该方法对于抵抗异 常值有很好的效果 。
关键词 :异常值 ; MCD 估计 ;主成分分析 ;稳健主成分分析
中图分类号 :O212 文献标识码 :A
A Robust Princ ipal Component Analysis Ba sed on MCD Estimator and Its Empirical Study
WAN G Bin2hui ,CH EN Yi2fei
(Depart ment Of Statistics J inan U niversity , Guangdo ng Guangzhou ,510632)
Abstract :Principal co mpo nent analysis ( PCA) is a f requently used multivariable analysis met hod in eco no mics and management ,it plays an important role in dimensio n reductio n and is a powerf ul tool for overall evaluatio n1 But t ra2 ditio nal PCA is very sensitive to outliers and t he result s are easily affected by t hem1 Real2life data always include ab2 normal sit uatio ns which is usually lack of co nsideratio n1 A robust PCA based o n MCD est mator is p ut forward in t his paper1 Simulatio ns and empirical st udy p rove t hat it is very effective in resistance of outliers1
Key words :outliers ; MCD estimator ;p rincipal co mpo nent analysis ; robust p rincipal co mpo nent analysis
1 异常值对传统主成分分析的影响
传统的主成分分析对于异常值是很敏感的 ,主要是因为期望和协方差矩阵这两个估计量 并不是稳健的估计量 ,当有个别样本数据因为输入错误等其它原因造成数据过大或者过小的 时候会对结果产生很大的影响 。反映在主成分分析上 ,分析出来的主成分会被异常值吸引过 去 ,掩盖了原始数据的真实结果 。如图一所示 :异常值把正常的数据的第一主成分方向向自己 的方向拉了过去 ,从而造成结果的不稳定性 。
因此为了处理这种情况 ,不断有学者把稳健统计的方法应用到主成分分析中 ,其中 MCD
收稿日期 :2004 年 09 月 24 日
基金项目 :广东省科技计划攻关项目 (编号 :2004
(Minimum Covariance Deter minant ) 估计方法是其中 一种最具代表性的方法 。
2 MCD 估计方法的基本原理和算法
211 简介
MCD 方法最早由 Ro usseeuw ( 1984) 提出 ,虽然其 方法具有很高的稳健性 ,但是由于其算法的复杂性加 上当时计算机性能的落后 ,不能得到很好的运用 。直 到近几年计算机技术的不断发展和 Ro usseeuw , Van
图 1 异常值对主成分分析的影响示图
Driessen (1999) 提出改良过的快速 MCD 算法 ( FA S T2MCD) ,才使得 MCD 方法真正地应用在 各种稳健估计中 ,其高效性可以处理超过 30 个变量 ,几十万样本的数据 。但是 MCD 方法的
一个最大缺点就是不能处理变量数量比样本数量要多的数据 ,这时就要用到投影寻踪 ( Project
Pursuit ) 这种
文档评论(0)