网站大量收购独家精品文档,联系QQ:2885784924

主曲线研究:综述1 - Junping Zhang.PDF

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主曲线研究:综述1 - Junping Zhang

AI Group 技术报告 2002-3 主曲线研究:综述1 张军平 王 珏 中国科学院自动化研究所,100080 E-mail:junping.zhang@mail.ia.ac.cn 摘要: 主曲线(principal curves)是第一主成分的非线性推广,第一主成分是对数据集 的一维线性最优描述。主曲线强调寻找通过数据分布的“中间”(middle)并满足 “自相合”的光滑一维曲线,其理论基础是寻找嵌入高维空间的非欧氏低维流形。 本文着重介绍了主曲线发展的动机、理论基础、典型的主曲线方法和算法实现及 其不同领域的应用,并对存在的问题进行了分析。 关键词:主曲线、自相合、流形、主成分 一、 主曲线研究的动机 自1904 年Spearman 提出线性主成分分析方法以来,由于这种方法简单且便 于使用,至今还是数据统计分析的重要工具之一。线性主成分分析的原理是将数 据集合投影到一个矢量,使得投影的均方差最大,由此,将这个矢量称为数据集 合的第一主成分。正是这个考虑,在均方差的意义下,这个方法有两个重要的优 点:其一,数据集合可以使用一个矢量来描述,从而达到减小信息描述长度的目 的,其二,计算第一以及依次主成分,可以变换为求解基于数据自相关矩阵的特 征值方程,这在数学上没有任何困难,便于使用者理解,另外,第一与依次主成 分矢量保持正交关系,这意味着,与主成分矢量平行的矢量具有与主成分相同的 性质。正是这两个原因,加上在统计上以均方差为保证,主成分分析得到广泛的 应用。 由于信息描述长度与信息保持性之间存在矛盾,相对较长的信息描述长度, 较短描述长度的信息描述是以损失信息保持性为代价的,而主成分分析的本质是 一种在均方差意义下的统计平均。尽管它可以获得较短的信息描述长度,但是, 信息保持性的代价相当大,由于信息保持性是对数据分布的规律性认识,因此, 对某些问题,这个代价可接受的,但是,另外一些问题,可能就不能接受了。例 如,对原始语音信号的分析,单纯的主成分分析就不一定有效。 为了说明信息描述长度与信息保持性之间的关系,下图是一个简单的例子。 图1 是由300 个包含误差的数据点构成的余弦状分布,图1(a)的直线是数据的第 1本文由国家重点基础研究发展规划项目(G1998030508)提供资助 1 AI Group 技术报告 2002-3 一主成分线,其对余弦数据的描述长度显然较图1(b)要短,因为这些数据点将使 一个线段描述,因此,只需给出线段起点和终点即可,可以认为图1(a)给出了一 个短描述长度的关于数据集合的描述;显然,图1(b)对数据的信息保持性则比图 1(a)要好,一方面,它与数据间的距离均方差也要小,另一方面,它勾画出原始 信息的轮廓。图1(b)恰恰是本文所讨论的根据主曲线原理所获得的结果。那么, 两种描述哪一个更为合理呢?显然,这没有一个一般性的答案,这取决于所需解 决问题的需求。 (a)第一主成分线 (b) 主曲线 图1 信息描述长度与信息保持之间的关系 [1] 图1 也说明无监督学习较监督学习困难的原因,问题本身的病态定义 导致 不得不引入复杂性思想,如统计学习理论中的风险结构最小、贝叶斯学派中的贝 叶斯信息准则、Kolmogrov 算法复杂度引出的最小描述长度等等,来寻求在信息 保持性与数据描述长度之间的折衷。 1983 年Stanford 大学统计系的Trevor Hastie 以技术报告的形式发表了主曲 线的开创性论文(Principal Curves and Surfaces)[2] ,五年之后的1988 年,这个报告 在统计学杂志上正式面世[3] 。由于作者在阐述其原理时使用了较复杂的数学,

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档