第1章统计学习方法概论选编.PDFVIP

下载本文档

17
0
约3.74万字
约 24页
2017-06-28 发布于湖北
举报
版权申诉

第1章统计学习方法概论选编.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第1章统计学习方法概论选编

第 1 章统计学习方法概论本章简要叙述统计学习方法的一些基本概念．这是对全书内容的概括，也是全书内容的基础．首先叙述统计学习的定义、研究对象与方法；然后叙述监督学习，这是本书的主要内容；接着提出统计学习方法的三要素：模型、策略和算法；介绍模型选择，包括正则化、交叉验证与学习的泛化能力；介绍生成模型与判别模型；最后介绍监督学习方法的应用：分类问题、标注问题与回归问题． 1.1 统计学习 1．统计学习的特点统计学习（statistical learning ）是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科．统计学习也称为统计机器学习 (statistical machine learning ）．统计学习的主要特点是：（1）统计学习以计算机及网络为平台，是建立在计算机及网络之上的；（2 ）统计学习以数据为研究对象，是数据驱动的学科；（3 ）统计学习的目的是对数据进行预测与分析；（4 ）统计学习以方法为中心，统计学习方法构建模型并应用模型进行预测与分析；（5 ）统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科，并且在发展中逐步形成独自的理论体系与方法论．赫尔伯特⋅ 西蒙（Herbert A. Simon ）曾对“学习”给出以下定义：“如果一个系统能够通过执行某个过程改进它的性能，这就是学习．”按照这一观点，统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习. 现在，当人们提及机器学习时，往往是指统计机器学习． 2．统计学习的对象统计学习的对象是数据（data ）．它从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去．作为统计学习的对象，数据是多样的，包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合．统计学习关于数据的基本假设是同类数据具有一定的统计规律性，这是统计学习的前提．这里的同类数据是指具有某种共同性质的数据，例如英文文章、互联网网页、数据库中的数据等．由于它们具有统计规律性，所以可以用概率统计 2 第 1 章统计学习方法概论方法来加以处理．比如，可以用随机变量描述数据中的特征，用概率分布描述数据的统计规律．在统计学习过程中，以变量或变量组表示数据．数据分为由连续变量和离散变量表示的类型．本书以讨论离散变量的方法为主．另外，本书只涉及利用数据构建模型及利用模型对数据进行分析与预测，对数据的观测和收集等问题不作讨论． 3．统计学习的目的统计学习用于对数据进行预测与分析，特别是对未知新数据进行预测与分析．对数据的预测可以使计算机更加智能化，或者说使计算机的某些性能得到提高；对数据的分析可以让人们获取新的知识，给人们带来新的发现．对数据的预测与分析是通过构建概率统计模型实现的．统计学习总的目标就是考虑学习什么样的模型和如何学习模型，以使模型能对数据进行准确的预测与分析，同时也要考虑尽可能地提高学习效率． 4．统计学习的方法统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析．统计学习由监督学习（supervised learning ）、非监督学习（unsupervised learning ）、半监督学习（semi-supervised learning ）和强化学习（reinforcement learning ）等组成．本书主要讨论监督学习，这种情况下统计学习的方法可以概括如下：从给定的、有限的、用于学习的训练数据（training data ）集合出发，假设数据是独立同分布产生的；并且假设要学习的模型属于某个函数的集合，称为假设空间（hypothesis space ）；应用某个评价准则（evaluation criterion ），从假设空间中选取一个最优的模型，使它对已知训练数据及未知测试数据（test data ）在给定的评价准则下有最优的预测；最优模型的选取由算法实现．这样，统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法，称其为统计学习方法的三要素，简称为模型（mode