4分类和预测(5)数据预测.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章 分类和预测 4.1 分类和预测的定义 4.2 数据分类方法 决策树 神经网络 SVM 贝叶斯网络 4.3 数据预测方法 线性回归 非线性回归 数据预测 数据预测可看成是一种泛化的分类。 当类别是一个连续值时(相当于无限多类),分类问题就变成了预测问题。 数据预测的过程与分类的过程类似: 构建一个模型; 利用模型来估计未知样本对应的连续值。 数据预测的主要方法: 回归分析(Regression Analysis) 数据预测 回归分析是一种常用的统计分析方法,它能够分析一个变量与其他(一个或者多个)变量之间的相关关系。 根据回归分析中涉及自变量的个数,可把回归分析分为如下两类: 一元回归分析 多元回归分析 数据预测 回归分析是一种常用的统计分析方法,它能够分析一个变量与其他(一个或者多个)变量之间的相关关系。 根据回归分析中自变量和因变量之间的关系,可把回归分析分为如下两类: 线性回归分析 非线性回归分析 数据预测 回归分析模型 数据预测(提纲) 线性回归 一元线性回归 多元线性回归 非线性回归 一元非线性回归 多元非线性回归 数据预测(提纲) 线性回归 一元线性回归 多元线性回归 非线性回归 一元非线性回归 多元非线性回归 一元线性回归 只涉及一个自变量的回归分析,因变量与自变量之间的关系可用一条直线(线性)方程来表示。 因变量y与自变量x之间为线性关系; 因变量(dependent variable):被预测或被解释的变量,用y表示。 自变量(independent variable):预测或解释因变量的一个或多个变量,用x表示 。 一元线性回归 例子: 人均收入是否会影响人均食品消费支出; 贷款余额是否会影响到不良贷款; 航班正点率是否对顾客投诉次数有显著影响; 广告费用支出是否对销售额有显著影响。 一元线性回归 一元线性回归模型: y = b0 + b1 x + e 含义:因变量y是自变量x的线性函数(部分)加上一个误差项?所构造的方程; 线性部分反映了由于x的变化所引起y的变化; 误差项?是一个随机变量,反映了x和y之间除线性关系之外的其他随机因素对y的影响。 ?0和?1称为模型的参数。 一元线性回归 一元线性回归中的假定: 误差项?是服从正态分布的随机变量,即: ? ~ N(0,σ2 ) 误差项?是期望值为0的随机变量,即E(?)=0。 对于所有的x值,?的方差σ2 都相同,并且不同样本的误差项的协方差为零,即:?i和?j相互独立(i≠j)。 一元线性回归 当给定一组样本数据(x1, y1), (x2,y2), ..., (xn, yn),以及一元线性回归模型: 需要解决以下问题: 如何估计参数?0、?1以及σ2? 根据样本数据确定的一元线性回归模型是否合理(可靠性有多高)? 如何使用该回归模型对未知样本进行预测。 一元线性回归 当给定一组样本数据(x1, y1), (x2,y2), ..., (xn, yn),以及一元线性回归模型: 需要解决以下问题: 如何估计参数?0、?1以及σ2? 根据样本数据确定的一元线性回归模型是否合理(可靠性有多高)? 如何使用该回归模型对未知样本进行预测。 一元线性回归 第一个问题:如何估计参数?0、?1以及σ2? 参数?0和?1必须利用样本数据去估计; 将已知样本数据(x1, y1), (x2,y2), ..., (xn, yn) ,分别代入一元线性回归模型,可得: 采用最小二乘法来估计参数?0和?1的值,使观测值与目标值之间的误差平方和达到最小: 一元线性回归 第一个问题:如何估计参数?0、?1以及σ2? 参数?0和?1必须利用样本数据去估计; 将已知样本数据(x1, y1), (x2,y2), ..., (xn, yn) ,分别代入一元线性回归模型,可得: 采用最小二乘法来估计参数?0和?1的值,使观测值与目标值之间的误差平方和达到最小: 一元线性回归 第一个问题:如何估计参数?0、?1以及σ2? 参数σ2的估计,根据样本数据(x1, y1), (x2,y2), ..., (xn, yn) ,计算每个样本的误差,可得误差平方和: 说明:在实际问题中,由于σ2并不参与运行,因此无需估计出参数σ2的具体值。 一元线性回归——示例 例1:已知工作年限与收入的关系如下表所示。 问题:当工作年限为10年时,年收入是多少? 问题:当工作年限为25年时,年收入是多少? 一元线性回归——示例 由最小二乘法可得到对应的一元线性回归方程为:y=3.5*x+23.2 一元线性回归——示例 问题:当工作年限为10年时,年收入是多少? 将工作年限10带入一元线性回归方程中,可预测出对应的年收入为Y=3.5*10+23.2=58.

文档评论(0)

55863368 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档