统计学习过去、现在和将来.docVIP

下载本文档

1
0
约6.58千字
约 14页
2018-11-03 发布于福建
举报
版权申诉

统计学习过去、现在和将来.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计学习过去、现在和将来

统计学习过去、现在和将来　　[摘要]现今的统计学习虽然已经有了重大的发展，但是若想把事情完全交给机器完成却不能得到理想结果，仍需要加入大量的人类智慧。现代统计学习理论是研究利用经验数据进行机器学习的一般理论，属于计算机科学、模式识别和应用统计学相交叉与结合的范畴。在科学技术飞速发展的今天，统计学习理论广泛吸收和融合相关学科的新理论，不断开发应用新技术和新方法，深化和丰富了统计学传统领域的理论与方法，并拓展了新的领域。　　关键词：统计学习试验方法　　中图分类号：C812文献标识码：A文章编号：1006-5954（2009）07-058-03 　　　　一、引言　　　　统计的发展可以通过其所解决的问题展现：解决的问题不断从简单到复杂，从具体到抽象，这就要求其具有更强的计算能力，不断的从狭义到广义演变。传统统计主要来源于具体的实验，依赖于经典的参数估计方法，而现代统计学习理论是研究利用经验数据进行机器学习的一种一般理论，属于计算机科学、模式识别和应用统计学相交叉与结合的范畴。由于较系统地考虑了有限样本的情况，统计学习理论与传统统计学理论相比有更好的实用性。统计学习（Statistics learning）的起源是一系列著名的实验（如Turing Test等），随着信息技术的不断发展与信息量不断增大的进程，统计学习（Statistical Learning）理论也在逐步完善以适应新的需求。　　现今的统计学习虽然已经有了重大的发展，但是若想把事情完全交给机器完成却不能得到理想结果，仍需要加入大量的人类智慧，例如：寻找事物特征、参数选取等等。不过类神经网络、SVM等技术的革新帮助解决了很多现实中复杂的问题，可以应用在诸多模式识别和回归估计问题中，并已经在很多实际问题中取得了很好的应用成果。随着统计学习发展，我们对统计有越来越高的期望，期望其可以发挥人类智慧的作用，计算能力再进一步提高，解决更加复杂的现实问题。　　　　二、统计学习的过去和现在　　　　Alan Turing于1950年提出了一个著名的实验――图灵测试（“Turing Test”）：将一个具有智慧的机器和一个人类，放在一个布幕里面。人分别与机器和人类交谈，如果分不出哪一个是机器，哪一个是人类的话，那么机器就具有了人工智能。由此揭开了人工智能（Artificial Intellegence）研究的序幕。在研究中，AI被划分成Weak AI和Strong AI。Weak AI并不是功能较弱，而是指某个系统只要能表现出人类的智力就好，不管底层系统是否真的有人类的智力。Strong AI则是希望建构出来的系统即使不是用细胞做的，他的架构也却是和人类相当，真的具有人类智慧。Weak AI可以由机器学习(Machine Learning)来代表。只要给定问题的范围，训练的资料(training data)，就可以由数据中选择特征(Feature selection)，然后建构数据的模型(Model selection)，最后把这个模型当成学习的成果，拿来做预测(Prediction)。　　迄今为止，关于机器学习还没有一种被共同接受的理论框架，其实现方法大致可以分为三种：第一种是经典的（参数）统计估计方法。包括模式识别、神经网络等在内；第二种方法是经验非线性方法，如人工神经网络（Artificial Neural Networks,ANN）；第三种方法是统计学习理论（ Statistical Learning Theory或 SLT）。　　（一）经典的（参数）统计估计方法　　经典的（参数）统计估计方法包括模式识别、神经网络等在内，现有机器学习方法共同的重要理论基础之一是统计学。参数方法正是基于传统统计学，在这种方法中，参数的相关形式是已知的，训练样本用来估计参数的值。　　但是随着电脑解决问题的广泛应用，研究人员试图研究复杂问题时，发现了参数体系的缺点。　　（1）大规模多变量问题导致了“维数灾难”现象的发生。研究人员观察到，增大可考虑因子的数量就需要成指数的增加计算量。因此，在含有几十个甚至是几百个变量的实际多维问题中定义一个相当小的函数集，也是一种不切实际的想法。　　（2）透过实际数据分析，实际问题的统计成分并不能仅用经典的统计分布函数来描述。实际分布经常是有差别的，为了建构有效的算法，我们必须考虑这种差别。　　（3）即使是最简单的密度估计问题，最大似然方法也不见得是最好的。　　总之，这种方法有很大的局限性。首先，它需要已知样本分布形式，这需要花费很大代价，还有，传统统计学研究的是样本数目趋于无穷大时的渐近理论，现有学习方法也多是基于此假设。但在实际问题中，样本数往往是有限的，因此一些理论上很优秀的学习方法实