分类-数据挖掘-韩家炜_2.ppt

下载文档 降价啦

2
0
约1.96千字
约 26页
2017-06-13 发布于湖北
举报
版权申诉
保障服务

分类-数据挖掘-韩家炜_2.ppt

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分类-数据挖掘-韩家炜_2

数据挖掘的两种建模形式预测建模描述建模预测建模预测建模的目的则是根据观察到的对象特征值预测它的其他特征值。这里的特征有时也称为变量或属性。描述建模描述建模的实质是对数据进行概括，使我们可以看到数据的最重要特征。预测模型在预测模型中，一个变量被表达成其他变量的函数。可以把预测建模的过程看作是学习一种映射或函数Y=?(X;θ)。其中： ?是模型结构的函数形式 θ是?中的未知参数。 X通常被称为输入变量，是一个p维向量，代表观察到的对象的p个属性值。 Y通常被称为响应变量，是一个标量，代表预测的结果。预测模型在函数Y=?(X;θ)中：如果Y是数量型变量，那么学习从向量X到Y的映射的过程叫做回归。如果Y是范畴型变量，则叫做分类。从学习一个p维向量X到Y的映射这个角度来讲，分类和回归这两种任务都可以看作是函数逼近(function approximation)问题。预测建模的训练数据由n对(X,Y)组成。每对数据中的向量X(i)和目标值Y(i)都是从已知数据中观察得到的(0?i?n)。预测建模就是：根据训练数据拟合出模型Y=?(X;θ)，该模型可以在给定输入向量X和模型?的参数θ的情况下预测出Y的值。预测模型的拟合过程需要完成以下事情： 1）确定模型?的结构； 2）确定参数θ的值。θ值是通过在数据集上最小化（或最大化）一个评分函数来确定的，而搜索最佳θ值的过程就是优化的过程，通常是数据挖掘算法的核心部分。因此，从算法组件的角度出发，模型拟合的过程实际上也就是要确定模型结构、评分函数以及搜索优化策略。用于预测的模型结构由于事先不知道模型?(X;θ)的形式，为?本身选择一个合适的函数形式本身是非常具有挑战性的。回归模型和分类模型都建立在很多相同的数学和统计基础之上，用于其中一种任务的模型通常也可以应用于另一种任务。用于分类的预测模型判别模型概率模型判别模型判别模型的输入是输入向量X，输出是响应变量Y。Y的取值为{C1，C2，…，Cm}，其中Ci表示类别。判别模型例如，当维数p=1时，判别模型实际上是二维空间中的分段直线。在一定的区域内，直线的取值为Ci(0?i?m)。当维数p=2时，判别模型实际上是三维空间中的一个分段曲面。仅当输入变量X的分量X1和分量X2共同构成的平面（X1，X2）位于一定区域时，该曲面的取值为Ci(0?i?m)。取值为Ci的所有区域的联合称为Ci类的决策区域。意思是，只要输入变量X落入这个区域，它的类别就被预测为Ci。在判别模型中，分类的主要任务是要确定各个类别的决策区域或者说，我们所感兴趣的是不同类别之间的边界。和回归的情况类似，可以对类别间边界的函数形式做一个简单的假定。例如，可以用线性边界将X空间分割成不相交的决策区域，每个区域对应一个类别。也可以将线性决策边界分段组合起来决策树的判别模型概率模型分类的概率建模是要针对每一个类别Ci，估计一种分布或密度函数ρ(X|Ci, θi)，其中θi是该函数的参数，它反映了Ci类的主要特征。概率模型例如，对于多变量的实数值数据，可以假定每个类别的模型结构都是多元正态分布，而且参数θi代表每个类的均值（位置）和方差（范围）特征。如果各个均值离得足够远，而且方差足够小，则各个类在输入空间中可以被很好地分割开来，从而使得分类的准确性最高用于预测的评分函数对于回归，普遍使用的评分函数是误差平方和对于分类，普遍使用的是误分类率用于回归的预测模型线性回归模型非线性回归模型分段线性模型线性回归模型 ? = a0 + a1X1 + a2X2 + … + apXp ?代表的是模型的预测值，而Y代表实际观察到的值。非线性回归模型 ? = a0 + a1X1 + a2X22 + a3X33 令Z1 = X1，Z2 = X22，Z3 = X33 ? = a0 + a1Z1 + a2Z2 + a3Z3 分段线性模型另一个对基本的线性回归模型进行推广的方法，就是假定响应变量Y是输入向量X的局部线性函数。该模型在p维空间的不同区域，具有不同的函数形式，这便是分段线性模型。分段线性模型分段线性模型是通过把简单模型分段组合在一起构建起来的相对复杂的模型。这种模型结构的参数既包括各个区域上的局部函数的参数，又包括各个区域的边界。分段线性模型当p = 1时，该模型表示由k个不同的线段逼近的一条曲线。不同线段末端可以连接，也可以不连接。因此，曲线可以是连续的，也可以不连续。分段线性模型当p 1时，该模型表示由多个超平面逼近的一个曲面。该曲面可以连续，也可以不连续。