统计学习基础概要.doc

下载文档

9
0
约1.23千字
约 3页
2017-06-07 发布于重庆
举报
版权申诉
保障服务

统计学习基础概要.doc

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

统计学习基础概要

统计数据挖掘《统计学习基础:数据挖掘、推理与预测》介绍了这些领域的一些重要概念。尽管应用的是统计学方法，但强调的是概念，而不是数学。许多例子附以彩图。《统计学习基础:数据挖掘、推理与预测》内容广泛，从有指导的学习（预测）到无指导的学习，应有尽有。包括神经网络、支持向量机、分类树和提升等主题，是同类书籍中介绍得最全面的。计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战，这导致了统计学领域新工具的发展，并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。许多工具都具有共同的基础，但常常用不同的术语来表达。《统计学习基础:数据挖掘、推理与预测》讨论分类的线性方法本章回到分类问题并关注分类的线性方法。这一章介绍了四种线性分类器，分别是线性回归分析，线性判别分析，logistic回归和分离超平面。线性回归分析的思想为：由于输出变量时类别变量，对输出变量y进行编码，这样可以使定性变量定量化，然后套用多元输出的线性回归的思想进行回归。线性回归分类的方法一、线性回归算法的合理；性线性回归分类的方法二、线性回归方法的缺陷 4.2 分析并举例说明，当类的个数k 3时，回归方法还有严重的问题，可能需要高达k-1次多项式对他们求解。 4.3 线性判别分析（LDA）分析LDA与最小二乘分类法、QDA的差异，得出LDA的优缺点。然后介绍改进的判别分析：正则化的判别分析，利用特征分解LDA的计算,降秩线性判别分析LDA,两分类的Fish方法,多类的线性判别分析（Fisher降维）。 4.4 logisti回归通常使用极大似然法拟合logisti回归模型,并实际用极大似然法拟合模型，给出理解输入变量在解释结果中的作用。逻辑斯蒂回归与LDA比较：通常认为逻辑斯蒂回归比LDA更安全、更健壮，它依赖于较少的假设。经验发现：两者得到的函数都是线性函数，而且形式非常类似。 4.5 介绍分离超平面分类法。重点是关于一个相关的过程即提升。本章概述：展示AdaBoost拟合一个基本学习器的加法模型，优化一个新颖的指数损失函数。该损失函数与（负的）二项式对数似然非常相似。（第10.2节到10.4节）证明指数损失函数的总体极小是类概率的对数几率（见10.5节）介绍比平方误差或者指数损失具有更强健壮性的回归和分类损失函数。（见10.6节）证明对于提升算法在数据挖掘中的应用来说，决策树是一个理想的基本学习器（第10.7节到10.9节）使用梯度方法，为具有任意损失函数的提升树开发一类技术（“MART”）（见10.10节）强调“慢学习”的重要性，并通过收缩进入模型的每个新项实现它（见10.12节）描绘前向分布收缩与模型参数L1罚（“套锁”）之间的联系。列举理由说明L1罚可能比支持向量机模型使用的L2罚更优越（见10.12.2节）描述拟合模型的解释工具（见10.13节）