投影寻踪.pptVIP

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
投影寻踪

遗传算法的流程图 七、实证分析 应用投影寻踪聚类模型对自于华夏证券网公布的深圳2003年中期上市公司的股价的高低进行分析,所选的盈利指标是每股现金流量和每股收益、每股净资产、股东收益率、净资产收益率、总资产收益率、销售利润率、主营业务收益率等等。 把每股收益、每股净资产、净资产收益率这三个指标作为聚类的标准。 n=20,m=5,给定 最优投影方向向量 利用 计算各个样本的投影特征值; 股票样本的投影特征值的大小,将股票分类。 最终结果:将20支股票分为四类; 第1类:晨鸣纸业。高收益的绩优股,发展前景令人期待,投资价值比较大。 第2类:云南白药,粤美的A,万科A。有较好的发展态势,但盲目介入有一定风险,适当关注,择机介入。 第3类:四环药业,兰宝信息,金路集团等共有10支股票。业绩一般,也可能有反弹空间,故还是以观望为主。 第4类:大连国际,大连金牛,天水股份等共有6支股票。明显的低收益的绩差股,以回避为好。 八、结语 突破:克服了高维点稀分布所造成的“维数祸根”困难; 使用了降维手段,能有效地发现高维数值的结构和特征; 采用了探索性数据分析方法,稳健性较好。 可用来解决一定程度的非线性问题。 不足:计算量大,对于具有很凹的等高线的密度或等高线是若干个同心球面的密度,效果不太好。 一、投影寻踪的产生背景 传统的多元分析方法是建立在总体服从正态分布满足正态假定,需要用稳健的或非参数的方法来解决。但是,当数据的维数很高时,即使用后两种方法也面临以下困难: 1、维数增加,计算量迅速增大 2、维数祸根 (在给定逼近精度的条件下,估计一个多元函数所需的样本点数随着变量个数的增加以指数形式增长。) 3、对低维稳健性好的统计方法,用到高维时则稳健性变差 传统的数据分析方法大多采用“对建立的模型进行证实”这样一条证实性数据分析思维方法。 弱点: 当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。 因此,高维数据尤其是非正态高维数据分析的需要,加上80年代计算机技术的高度发展是PP产生的主要背景。 二、发展简史 20世纪70年初Kruskal把高维数据投影到低维空间,通过数值计算得到最优投影,发现数据的聚类结构和解决化石分类问题。 1974年Frledman和Tukey正式提出了PP概念,并于1976年编制了计算机图像系统PRIM——9。 1979年后,Friedman等人相继提出了PP回归、PP分类和PP密度估计。 1981年Donoho提出了用Shannan嫡作投影指标,又利用PP的基本思想给出了多元位置和散布的一类仿射同变估计。 1985年Huber的综述论文中对前人的研究作了概括和总结。 三、PP及其分类 投影寻踪是用来分析和处理高维数据,尤其是来自非正态总体的高维数据的一类统计方法。 基本思想:利用计算机技术,把高维数据通过某种组合,投影到低维(1~3维)子空间上,并通过极小化某个投影指标,寻找出能反映原高维数据结构或特征的投影,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的。 一般方案: 选定一个分布模型作为标准(一般是正态分布),认为它是最不感兴趣的结构; 将数据投影到低维空间上,找出数据与标准模型相差最大的投影; 将上述投影中包含的结构从原数据中剔除,得到改进了的新数据; 对新数据重复步骤(2)(3),直到数据与标准模型在任何投影空间都没有明显差别为止。 PP方法的主要特点: PP方法能够在很大程度上减少维数祸根的影响; PP方法可以排除与数据结构和特征无关,或关系很小的变量的干扰; PP方法为使用一维统计方法解决高维问题开辟了途径; PP方法可以用来解决某些非线性问题; 一些传统的多元分析方法就是PP方法的特例,如主成分分析; PP方法的不足之处是计算量大,同时对于高度非线性问题的效果不好。 PP的分类 PP包括手工PP和机械PP两方面内容。 手工PP:主要是利用计算机图像显示系统在终端屏幕上显示出高维数据在二维平面上的投影,并通过调节图像输入装置连续地改变投影平面,使屏幕上的图像也相应地变化,显示出高维数据在不同平面上投影的散点图像。使用者通过观察图像来判断投影是否能反映原数据的某种结构或特征,并通过不断地调整投影平面来寻找这种有意义的投影平面。 1974年斯坦福大学教授J.H.Friedman等人编制的,PRIM-9是最早的图象显示系统。 机械PP:模仿手工PP,用数值计算方法在计算机上自动找出高维数据的低维投影,即让计算机按数值法求极大解的最优化问

文档评论(0)

ranfand + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档