交通数据处理与分析-一元线性回归分析.pptx

下载文档 降价啦

2
0
约3.9千字
约 37页
2019-10-07 发布于湖北
举报
版权申诉
保障服务

交通数据处理与分析-一元线性回归分析.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

;最小二乘法判定系数回归方程的显著性检验/回归系数的显著性检验模型预测精度的度量 ;在几种预测精度度量指标中。百分比误差、平均百分比误差和平均绝对百分比误差是对预测精度的相对度量，其对预测模型精度的度量要比回归标准差、平均绝对误差和误差平方和更直接;预测精度、模型假设检验和模型预测能力是有区别的。模型假设检验可以用来判定模型是否可以用来拟合历史数据；精度分析是模型对历史数据拟合效果的一个度量模型的预测能力则往往不能通过历史数据来说明。由于预测对象是??来还没有发生的一种状态，不能应用未来数据分析模型的预测能力，一个很直接的方法是：把一部分观测数据用来估计模型参数，而余下的数据用作模型预测能力的评价。通过模型预测值和这部分实际数据进行对比分析（精度分析），从而判定模型的预测能力。;现有全国31个主要城市2007年的气候情况观测数据，如表所示。下面研究年平均气温与全年日照时间之间的关系;令x表示年平均气温，y表示全年日照时数。由于x和y均为一维变量，可以先从x和y的散点图上直观地观察它们之间的关系，然后再做进一步的分析。 Matlab中的corr(x, y)或corrcoef(x, y)函数用于求相关系数 ;Pearson相关系数（Pearson’s correlation coefficient）又叫相关系数或线性相关系数。它一般用字母r表示。它是由两个变量的样本取值得到，这是一个描述线性相关强度的量，取值于-1和1之间。当两个变量有很强的线性相关时，相关系数接近于1（正相关）或-1（负相关），而当两个变量不那么线性相关时，相关系数就接近0。 ;Kendall t 相关系数（Kendall’s t）这里的度量原理是把所有的样本点配对（如果每一个点由x和y组成的坐标(x,y)代表，一对点就是诸如(x1,y1)和(x2,y2)的点对，然后看每一对中的x和y的观测值是否同时增加（或减少）。比如由点对(x1,y1)和(x2,y2)，可以算出乘积(x2-x1)(y2-y1)是否大于0；如果大于0，则说明x和y同时增长或同时下降，称这两点协同（concordant）；否则就是不协同。如果样本中协同的点数目多，两个变量就更加相关一些；如果样本中不协同（discordant）的点数目多，两个变量就不很相关。 ;Spearman(斯皮尔曼) 秩相关系数（Spearman rank correlation coefficient 或Spearman’s r）它和Pearson相关系数定义有些类似，只不过在定义中把点的坐标换成各自样本的秩（即样本点大小的“座次”）。Spearman相关系数也是取值在-1和1之间，也有类似的解释。通过它也可以进行不依赖于总体分布的非参数检验。 ;R = corr(x, y, param1, param2, …) R = corrcoef(x, y) 其中corrcoef函数输出的是Pearson相关系数，corr()函数可通过调整控制参数设置计算的相关系数类型。 ;一元线性回归分析;regress( )函数对于可控变量x1，x2，…，xp和随机变量y的n次独立的观测（xi1, xi2, …, xip; yi），(i= 1, 2, …n)，关于x1，x2，…，xp的p重广义线性回归模型如下;y为因变量观测值向量，X为设计矩阵，f1，f2，…,fp为p个函数，对应模型中的p项，β 为需要顾及的系数向量，ε为随机误差 ;不同的函数f1，f2，…，fp对应不同类型的回归模型，特别地，当f1(xi1) = xi1， f2(xi2) = xi2，…, fp(xip) = xip，(I = 1, 2, …, n)时，上式称为p重线性回归。一元线性回归模型是多重线性回归的特殊情况。;b = regress(y, X ) 返回多重线性回归方程中的系数向量β的估计值b，这里的b为一个p*1的向量。输入参数y为因变量的观测向量值，是n*1的列向量。X为n*p的设计矩阵。regress函数把y或X中的不确定数据NaN作为缺失数据而忽略他们。注意：当回归模型中需要常数项时，矩阵X中应当有1列1元素 ;[b, bint] = regress(y, X) 还返回系数估计值的95%置信区间bint，它是一个p*2的矩阵，第1列为置信下限，第2列为置信上限。 [b, bint, r] = regress(y, X) 还返回残差（因变量的真实值yi减去估计值y?i）向量，它是一个n*1的矩阵;[b, bint, r, rint] = regress(y, X) 还返回残差的95%置信区间rint，它是一个n*2的矩阵，第1列为置信下限，第2列为置信上限。rint可用于异常值的诊断，若第i组观测的残差的置信区间不包括0，则可认为第i组观测值