- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[理学]C3:回归
2003-11-1 高等教育出版社 第3讲:回归 3.1 什么是回归 3.2 回归算法的评估标准 3.3 构建回归算法的常用方法 3.4 线性方法 3.5 K-近邻方法 3.6 局部加权回归 3.7 本讲小结 3.1 什么是回归 回归就是预测连续的值,因此它不同于分类(预测离散的值,即分类标号)。 分类和回归是两类主要的预测问题。分类是对离散值建模,回归是对连续值建模。 3.2 回归算法的评估标准 relative mean absolute error relative root mean squared error correlation coefficient 3.3 构建回归算法的常用方法 构建分类算法的方法很多,常用的包括:线性方法、 K-近邻方法、人工神经网络方法、支持向量机方法等等。 3.4 线性方法 用线性的方法来作回归,就是构造一个线性函数来逼近要预测的目标函数值。常见的有:一元线性回归、多元线性回归、广义线性回归(对数回归和泊松回归)。 一元线性回归模型 一元线性回归模型可描述为: αy =b0+b1x+u 其中,b0和b1是未知参数,u是剩余残差项或称随机扰动项,它反映了所有其他因素对因变量y的影响。 建立一元线性回归模型的步骤如下:建立理论模型、估计参数、进行检验、进行预测。 多元线性回归模型 当影响因变量y的自变量不止一个时,比如有m个x1,…,xm,这时y和x之间的线性回归模型为 y=α+β1x1+…+βmxm 此时响应变量y可以看作是一个多维特征向量的线性函数。可以用最小二乘法求解α,β1,…,βm。 非线性回归 非线性回归对不呈现线性依赖的数据建模,可以通过对变量进行变换,将非线性模型转换成线性的,然后用最小二乘法求解。 广义线性回归模型 广义线性回归模型提供了将线性回归用于分类响应变量建模的理论基础。 与线性回归不同,在广义线性模型中,响应变量y的方差是y的平均值的函数,而在线性回归中,y的方差为常数。 广义线性回归模型的常见形式包括对数回归和泊松回归。 广义线性回归模型(续) 对数回归将某些事件发生的概率看作预测变量集的线性函数。计数数据常常呈泊松分布,并通常使用泊松回归建模。 对数线性模型近似离散的多维概率分布,可以使用它们估计与数据立方体单元相关的概率值。 对数线性模型的应用非常广泛,除了作回归预测以外,还可以用来作数据压缩和数据平滑。 3.5 K-近邻方法 不同于eager学习算法,K-近邻方法在训练阶段只是简单地把训练样例存储起来,把建模过程推迟到了要预测新实例的工作阶段。因此, K-近邻方法是一种典型的lazy学习算法。 k-近邻方法既可以用于目标函数值是连续的情况,也可以用于是离散的情况。在此,我们先考虑连续的情况。 K-近邻方法的学习过程分两部:1)找到要预测新实例的K个邻居;2)根据这K个邻居来预测新实例的目标值。 k-近邻算法 k-近邻算法假定所有的实例对应于n维空间Rn中的点,任意的实例表示为一个特征向量a1(x), ..., an(x) 根据欧氏距离定义实例间的距离。两个实例xi和xj的距离d(xi,xj)定义为 伪代码 逼近连续值目标函数f: Rn?R的k-近邻算法 训练算法 将每个训练样例x,f(x)加入到列表training_examples 分类算法 给定一个要分类的查询实例xq 在training_examples中选出最靠近xq的k个实例,并用x1...xk表示 返回 距离加权的k-近邻算法 对k-近邻算法的一个改进是对k个近邻的贡献加权,越近的距离赋予越大的权值,比如: 其中 为了处理查询点xq恰好匹配某个训练样例xi,从而导致d(xq,xi)2为0的情况,令这种情况下的 等于f(xi),如果有多个这样的训练样例,则用它们的平均值来预测。 对k-近邻算法的的说明 k-近邻算法的所有变体都只考虑k个近邻用以预测查询点,如果使用按距离加权,那么可以允许所有的训练样例影响对xq的预测,因为非常远的实例的影响很小。唯一不足之处:使得回归预测速度变得更慢。 如果预测一个新实例时,考虑所有的训练样例,我们称为全局法;如果仅考虑靠近的训练样例,称为局部法。 k-近邻算法的优点 K-近邻算法不是在整个实例空间上一次性地预测目标函数值,而是针对每个待预测的新实例,建立不同的目标函数逼近,作出局部的和相异的预测 。这样做的好处是:有时目标函数很复杂,但具有不太复杂的局部逼近。 距离加权的k-近邻算法对训练数据中的噪声有很好的健壮性,通过取k个近邻的加权平均,可以
文档评论(0)