第五 统计方法(2).pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五 统计方法(2)

5.5 方差分析 通常,在分析估计回归直线的性能和自变量对最终回归的影响时,用方差分析方法。 方差分析是一种主要用于线性回归模型中β值非零的情况下的识别方法。假设用最小二乘法已求出参数β的值,那么观察到的输出值和拟合值的差异是残差。       Ri=yi-f(xi) 对数据集中的m个样本,残差的大小和方差  σ2的大小是有联系的。方差可用下式估计: 上述分析结果,只有删除x3,F没有明显变化,其他情况F比值显著增加,因此可以删除,不影响模型的性能。 方差的多元分析是方差分析的一个推广,解决了输出不是单个数值而是一个向量的数据分析问题。方差的多元分析基于这样一个假设,输出变量间相互独立,采用一个多元线性模型来建模: 5.6 对数回归 线性回归用于对连续值函数进行建模。广义回归模型提供了将线性回归用于分类响应变量建模的理论基础,它最常见的形式是对数回归。 对数回归将某些事件发生的概率建模为预测变量集的线性函数。它不是预测因变量的值,而是估计因变量取给定值的概率p。例如,对数回归不预测顾客的信用等级是好是坏,而是试着估计顾客有好的信用等级的概率。 对数回归仅适用于输出变量是二元分类变量的情况。但输入变量也可以是定量的,它支持一般的输入数据集。假设输出Y有两个分类值编码为0和1,由数据集能计算出所给输入样本所产生的输出值取0和取1的概率。 对数回归的模型表示为: 5.7 对数-线性模型 对数-线性建模是一种分类(或数量型)变量间关系的方法。对数-线性模型近似于离散的、多元的概率分布。它是一种假设输出Yi具有泊松分布的的广义线性模型,假设其期望值μj的自然对数是输入的线性函数: 由于所感兴趣的变量是分类变量,用表示数据总体分布的频率表来表示它们。 对数-线性建模的主要目的是识别分类变量间的关联。因此,此类分类问题转换成了求模型中所有β值为0的问题。如果对数-线性模式中变量间有相互作用,表示这些变量不是独立的而是相关的,相应的β值不为0。 由于所研究的问题是变量间的关联,因此没有必要将分类变量作为分析的输出。如果需要输出,可采用对数回归来分析。此处仅解释一个定义数据集时没有输出变量的对数-对性模型。 一致性分析是分析关联矩阵(也称列联表)中的分类数据。其分析结果回答了“所分析的变量间是否有关联”这个问题。 例如,下表是一个2×2列联表,有关男性和女性对堕胎态度的调查结果,样本数=1100,两个分类变量-性别(男性和女性)和赞同(是和否),每一种情况都有累积结果。 对数-线性模型用于解决分类变量间的关联,分析步骤是它基于根据两个列联表的比较,定义变量间关联的算法:  1.第一步,把所给的列联表转换成一个具有期望值的表,并假定这些变量间是在独立的情况下来计算这些值。  2.第二步,用平均距离指标和卡方检验作为评价两个分类变量关联的标准,对这两个矩阵进行比较。 5.8 线性判别分析 线性判别分析(LDA)是解决因变量是类型的(名义类型或顺序类型),自变量是数值型的分类问题,LDA的目标是构造一个判别函数,能够通过对不同的输出类中的数据进行计算产生不同的分数。线性判别函数的形式如下: 判别函数z的构造是求出一组权值wi,这组权值能使预分类的样本集的判别得分的类间方差和类内方差的比率达到最大。构造出判别函数z后,就可以用它来预测一个新的未被分类的样本的类。 分数线(cutting scores)是判断单个判别得分的标准。设za和zb分别是类A和类B中预分类的样本的平均判别得分。如果两类样本一样大且服从同一方差分布,那么分数线Zcut-ab的最佳选择是: zcut-ab=(za+zb)/2 当zzcut-ab时,新样本为A类;当zzcut-ab时,新样本为B类;当z=zcut-ab时那么新样本可被随意归到任意一类。 当每类样本不一样大时,平均判别得分的加权平均作为它的最佳分数线为: zcut-ab=(na·za+nb·zb)/(na+nb) 式中na,nb表示每类中样本数。 * * 式中分子是残差和,分母是残差的自由度。 分析步骤: 首先,计算模型所有输入的S2,然后一一删除这些输入,若删除一个有用的输入,S2 的估计值将会大幅度上升,若删除一个多余的输入,估计值不会有太大的变化。 在上述步骤的迭代过程中,引入F比率和F统计检验,形式如下: 若一个输入被删除后,F接近于1,新模型合适;若F值明显大于1,说明新模型不合适。应用迭代的方差分析方法,能识别哪一个输入和输出的相关的,哪些是不相关的。 下表是有3个输入的数据集的方差分析 F62=2.48 9.89 X2 6 F52=2.27 9.02 X1 5 F41=2.34 8.34 x2,x3 4 F31=1.75 6.22

文档评论(0)

hello118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档