- 1、本文档共69页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
;;预测模型是根据实际数据,运用统计建模方法,对未来一定时期内的可能变化情况,进行推测、估计的定量分析方法。
机器学习领域的两大类问题:回归、分类,都属于预测,因变量为连续数据的预测,就叫作回归;因变量为分类数据的预测,就叫作分类。通常所说的回归分析,狭义上来说指的是多元线性回归,广义上来说,可以扩展到各种机器学习的回归、分类算法。;模型方法;一、线性回归;(1) 最小二乘法
以工作年限与工资的数据为例,用 MATLAB 读入csv 数据,查看部分数据,绘制散点图:
MATLAB代码
dat = readtable(Salary_Data.csv, PreserveVariableNames, true);
dat(1:3, :)
scatter(dat.Year,dat.Salary,’*’)
运行结果:
ans = 1.1000 3.9343
1.3000 4.6205
1.5000 3.7731
;可见,这些散点大致在一条直线上,一元线性回归就是寻找一条直线,使得与这些散点拟合程度最好(越接近直线越好)。;?;?;?;?;?;2. 多元线性回归;二元线性回归就是找一个平面到各个散点距离总和最小:
多元线性回归是找一个超平面,到各个散点的距离总和最小。;?;?;?;(2)均方误差与均方根误差
这是可用于所有回归模型(包括机器学习中的回归算法)的性能评估指标:
均方误差:
均方根误差:
;?;判断残差的残差图可分为 6 类:
;?;所以,用残差检验模型是否成功,就是对残差做正态性检验。
残差是白噪声,也表明不具有自相关性。可对残差做一阶自相关性进行 Durbin-Watson 检验:
H0: 残差不存在自相关(独立性)
H1: 误差项是相关的
检验统计量为
DW 接近于 0,表示残差中存在正自相关;DW 接近于 4,表示残差中存在负自相关;DW 接近于 2,表示残差不存在自相关。
;(4) 多重共线性
多元线性回归建模,若自变量数据之间存在较强的线性相关性,即存在多重共线性。
多重共线性,会导致回归模型不稳定,这样得到的回归模型,是伪回归模型,就是并不反映自变量与因变量的真实影响关系。所以,多元线性回归建模,要做共线性诊断,识别出多重共线性,并处理多重共线性再建模。这可以从线???相关系数、回归模型的方差膨胀因子VIF(大于10)来确定。
多重共线性的解决办法(任选其一):
1) 若两个自变量线性相关系数较大,则只用其中1个自变量;
2) 用逐步回归,剔除冗余的自变量,得到更稳健的回归模型;
3) 用主成分回归,相当于对自变量进行重组(将线性相关性强的变量合成为主成分),再做线性回归;
4) 利用正则化回归:岭回归、Lasso回归、弹性网模型(岭回归与Lasso回归的组合)。
;?;2) 回归标准误与回归系数标准误
统计建模所做的事情,基本都是在用样本去推断总体。用于回归的样本数据,是来自总体的某次抽样,下次再抽样、做回归建模会得到另一回归模型及新的回归系数,这就给推断总体时带来了偏差,叫作抽样误差。
样本统计量(回归方程、回归系数)的计算来自抽样的样本,会随抽样样本的变化而变化,所以真正是可以抽样很多次,计算很多个该样本统计量,那它们放在一起,就有均值和标准差,该标准差就是它的标准误;该均值±标准差就是该样本统计量的置信区间,标准误的大小直接反映了抽样是否有足够的代表性,进而结果是否有足够的可靠性(可信度)。
汇报结果时,汇报标准误和置信区间是更加重要的,计算出样本统计量的值(只是偶然的某一个),意义并不大,如果它的标准误还很大,那么可以说结果基本毫无意义。
;?;?;(7)Matlab 实现
fitlm() 函数实现多元线性回归,基本格式为:
fitlm(tbl, modelspec, Name, Value)
fitlm(X, y, modelspec, Name, Value)
其中,tbl 为数据表 table 对象;也可以用 X, y 分别以矩阵形式提供自变量和因变量数据;
modelspec,设置模型公式形式:
比如 y ~ x1 + x2 + x3,表示三元线性回归模型,默认带截距项;
其他常用表示,如 x1^2 (平方项),x1:x2(交互项 x1x2),x1*x2(相当于 x1+x1:x2+x2),-x2(排除 x2)
;modelspec 还可以直接设置值:
- constant: 只包含截距项
- linear: (默认)只包含截距项、线性项
您可能关注的文档
- 外研社E英语教程(第二版)4教学课件Unit 3.pptx
- 外研社应用英语教程综合英语3教案Unit_7.pdf
- 外研社应用英语教程综合英语3 Unit_7_教学课件.pptx
- 机工社C语言程序设计第3版教学课件3.pptx
- 机工社数学建模:算法与编程实现教学课件第11讲_时间序列2.pdf
- 机工社数学建模:算法与编程实现教学课件第11讲_时间序列1.pdf
- 机工社数学建模:算法与编程实现教学课件第10讲_预测模型2.pptx
- 机工社数学建模:算法与编程实现教学课件第09讲_模糊理论.pptx
- 机工社数学建模:算法与编程实现教学课件第08讲_评价模型.pptx
- 机工社数学建模:算法与编程实现教学课件第07讲_优化模型进阶.pptx
- 高中语文议论文写作的文体意识:问题审视与教学策略探究.docx
- 东三省体育院校学生道德素质现状、问题与提升路径探究.docx
- 以实验为翼,翱翔生物探究天空:高中生物实验教学中探究能力培育之道.docx
- 川教版三年级下册信息科技 1.1探秘在线学习平台 教案(表格式).pdf
- 以传统文化为基,铸大学生修身之魂:探寻当代高校育人新路径.docx
- 海洋环境下三金属电偶腐蚀行为的多维度解析与有限元模拟.docx
- 初中班主任领导行为:类型、影响与优化策略探究.docx
- 川教版三年级下册信息科技 1.2掌握在线学习工具 教案(表格式).pdf
- 探寻课外阅读提升初中生语用能力的路径与影响.docx
- 从告状行为透视小学生角色建构与自我形成:多维度分析与教育启示.docx
文档评论(0)