基于可分离函数和的多元回归和机器学习.docVIP

下载本文档

6
0
约1.4万字
约 43页
2016-11-27 发布于天津
举报
版权申诉

基于可分离函数和的多元回归和机器学习.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于可分离函数和的多元回归和机器学习

SIAM科学计算Vol.31,No.3,1840-1847 基于可分离函数和的多元回归与机器学习摘要：本文提出了一种利用离散数据进行学习（或拟合）多元函数的算法。函数由一组可分离函数的和近似表示，服从一种可分离的表达范式。这种中心拟合算法在数据点和变量数两个尺度上符合线性规律，因此适用于高维海量数据集的情况。同时，了关于这一的数值实例。此外，还特别地证明了这一算法在处理标准数据集时优于其它算法。关键词：多元回归机器学习维数灾难分离变量AMS主题分类：62J02，62H99，65D15，68T05 DOI：10.1137/070710524 1 问题介绍我们考虑高维背景下的多元回归问题。首先，从一组离散数据开始：目标是构建一个函数g(x)，使得g(x)在某种意义（通常为平均）上近似于yj，并且g(x)可以作为估算其它x所对应函数值的合理化模型。这样的问题在统计学和机器学习领域经常被提及。集中讨论维度d较大，但生成数据的基础函数较为“简单”的情况。可以稿件送达时间：2007年12月10日。稿件采用（修订稿）时间：2008年10月27日。电子版出版时间：2009年3月13日。 /journals/sisc/31-3/71052.html 1 科罗拉多大学，应用数学系，博尔德，C80309-0526。该作者研究获DARPA/ARP基金会号W911NF-06-1-0254支持。 2 柏林理工大学，数学学院，Sekretariatmjm@math.ohiou. edu）。该作者研究获NSF基金会编号DMS-0545895及DARPA/ARP基金会号W911NF- 06-1-0254支持。很容易地构造一个离散化函数，使得网格上的每个方向有M个数据点，亦即实际上共计Md个样本。由于M和dMd仍显得过大了，必然可以预测实际点数N远小于Md，因此，这样的数据样本并不足以构建函数。这种维数灾难所带来的后果将排除任意函数表达的可能。，我们必须提供具有足够丰富属性的函数类，以构建合乎数据的合理化回归函数。中，将g(x)表示为可分离函数的和，这一类函数对多种重要样本具有极高的近似精确性，同时其算法在N与d两个尺度上也符合线性规律。我们给出一个关于此类问题简单而有益的实例，假设你在闭上眼睛的同时试图用一根手指去触前额。在做出如何移动手臂的决定之前，你需要估计你的手指现在所的位置。在前额与手指之间有一些关节，其数量（至少）为d=10。一种策略是利用传感器肌肉和关节的信息来决定这些角度，并利用相关几何知识去计算从手指到前额的距离。我们所提出的第二种策略则是通过收集数据并构建回归函数来学习其距离函数。眼睛，可以确定对应于一个给定的角度集（或原始传感输入）的距离，并因此获得了一组数据点。通过移动手臂，你可以获取一个训练数据集。在构建回归函数之后，你就可以闭上你的眼睛，并简单地计算当前角度下的函数值来估得函数值，而非进行几何计算。在这个例子中，函数虽然有多个变量，但并不复杂，因此方法是合适的。构建g(x)的先决条件是表示和利用该多元变量函数的能力。在高维情况下，径向逼近或可分离函数逼近。其中，可分离函数逼近是基于经典的可分离函数近似方法。当该近似表示不够精确时，自然会考虑到利用一组可分离函数的和来代替。我们称r为分离度，而系数仅仅只是为了实现使的便利性。许多算法都基于这一形式，但是在其运用上并不相同。张量积的基方法从预选定的正交函数集中选定，形成所有的组合，并以此来决定系数。而一旦一个变量基具有M个元素，则将会有共计r=Md种组合，这对于参数值来说过大了。由此我们可以看出，由于维度灾难使得这种方法完全无法实用。而稀疏网格方法（见参考文献[5]）则利用谱系性质证明的衰变估计来剔除其中的多种组合，使得稀疏张量积能够缩减问题规模至。该方法曾在参考文献[13、12、11]中有所运用。无论是张量积的基方法还是稀疏网格的基方法都将产生线性的近似结果，并导致r随d指数型增长。在统计学范畴中，形如（1.3）式的表达法被称作“平行因子分解”或“典范因子分解”，如参考文献[15，20，21，4，7，25]所述。它们首用于分析网格中的数据，特别是三维网格。由于其目的在于分析数据，因此往往会存在附加属性，例如在讨论概率问题是常附加非负性条件等。同样的，由于它们仅用于描绘网格上的数据，因此并不会构建一个一般性的回归函数。本文中同样会用到形如（1.3）式的函数，但并没有正交性或非负性等附加条件。通过移除限制性条件，可将该算法由线性方法推广至非线性近似算法（见参考文献[9]）。在本文中，我们称（1.3）式为可分离表达法，而函数系则将限制在一个子空间内，但不一定严格限制在一组特定的基中。我们发现，在参考文献[1，2，23]中，这样宽松的约