网站大量收购独家精品文档,联系QQ:2885784924

机工社数学建模:算法与编程实现教学课件第10讲_预测模型1.pptx

机工社数学建模:算法与编程实现教学课件第10讲_预测模型1.pptx

  1. 1、本文档共69页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
;;预测模型是根据实际数据,运用统计建模方法,对未来一定时期内的可能变化情况,进行推测、估计的定量分析方法。 机器学习领域的两大类问题:回归、分类,都属于预测,因变量为连续数据的预测,就叫作回归;因变量为分类数据的预测,就叫作分类。通常所说的回归分析,狭义上来说指的是多元线性回归,广义上来说,可以扩展到各种机器学习的回归、分类算法。;模型方法;一、线性回归;(1) 最小二乘法 以工作年限与工资的数据为例,用 MATLAB 读入csv 数据,查看部分数据,绘制散点图: MATLAB代码 dat = readtable(Salary_Data.csv, PreserveVariableNames, true); dat(1:3, :) scatter(dat.Year,dat.Salary,’*’) 运行结果: ans = 1.1000 3.9343 1.3000 4.6205 1.5000 3.7731 ;可见,这些散点大致在一条直线上,一元线性回归就是寻找一条直线,使得与这些散点拟合程度最好(越接近直线越好)。;?;?;?;?;?;2. 多元线性回归;二元线性回归就是找一个平面到各个散点距离总和最小: 多元线性回归是找一个超平面,到各个散点的距离总和最小。;?;?;?;(2)均方误差与均方根误差 这是可用于所有回归模型(包括机器学习中的回归算法)的性能评估指标: 均方误差: 均方根误差: ;?;判断残差的残差图可分为 6 类: ;?;所以,用残差检验模型是否成功,就是对残差做正态性检验。 残差是白噪声,也表明不具有自相关性。可对残差做一阶自相关性进行 Durbin-Watson 检验: H0: 残差不存在自相关(独立性) H1: 误差项是相关的 检验统计量为 DW 接近于 0,表示残差中存在正自相关;DW 接近于 4,表示残差中存在负自相关;DW 接近于 2,表示残差不存在自相关。 ;(4) 多重共线性 多元线性回归建模,若自变量数据之间存在较强的线性相关性,即存在多重共线性。 多重共线性,会导致回归模型不稳定,这样得到的回归模型,是伪回归模型,就是并不反映自变量与因变量的真实影响关系。所以,多元线性回归建模,要做共线性诊断,识别出多重共线性,并处理多重共线性再建模。这可以从线???相关系数、回归模型的方差膨胀因子VIF(大于10)来确定。 多重共线性的解决办法(任选其一): 1) 若两个自变量线性相关系数较大,则只用其中1个自变量; 2) 用逐步回归,剔除冗余的自变量,得到更稳健的回归模型; 3) 用主成分回归,相当于对自变量进行重组(将线性相关性强的变量合成为主成分),再做线性回归; 4) 利用正则化回归:岭回归、Lasso回归、弹性网模型(岭回归与Lasso回归的组合)。 ;?;2) 回归标准误与回归系数标准误 统计建模所做的事情,基本都是在用样本去推断总体。用于回归的样本数据,是来自总体的某次抽样,下次再抽样、做回归建模会得到另一回归模型及新的回归系数,这就给推断总体时带来了偏差,叫作抽样误差。 样本统计量(回归方程、回归系数)的计算来自抽样的样本,会随抽样样本的变化而变化,所以真正是可以抽样很多次,计算很多个该样本统计量,那它们放在一起,就有均值和标准差,该标准差就是它的标准误;该均值±标准差就是该样本统计量的置信区间,标准误的大小直接反映了抽样是否有足够的代表性,进而结果是否有足够的可靠性(可信度)。 汇报结果时,汇报标准误和置信区间是更加重要的,计算出样本统计量的值(只是偶然的某一个),意义并不大,如果它的标准误还很大,那么可以说结果基本毫无意义。 ;?;?;(7)Matlab 实现 fitlm() 函数实现多元线性回归,基本格式为: fitlm(tbl, modelspec, Name, Value) fitlm(X, y, modelspec, Name, Value) 其中,tbl 为数据表 table 对象;也可以用 X, y 分别以矩阵形式提供自变量和因变量数据; modelspec,设置模型公式形式: 比如 y ~ x1 + x2 + x3,表示三元线性回归模型,默认带截距项; 其他常用表示,如 x1^2 (平方项),x1:x2(交互项 x1x2),x1*x2(相当于 x1+x1:x2+x2),-x2(排除 x2) ;modelspec 还可以直接设置值: - constant: 只包含截距项 - linear: (默认)只包含截距项、线性项

您可能关注的文档

文档评论(0)

allen734901 + 关注
实名认证
内容提供者

副教授持证人

知识共享

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

相关文档