类别数据分析 第二讲.docVIP

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
类别数据分析 第二讲

I. 对多元线性回归的深入讨论(续) 1. 回归中因变量和自变量间的非线性问题 线性变换: 改变因变量y的测量单位会同时改变回归系数及标准误的单位,但是原有的显著性水平及对其影响方向的解释不变。 改变某个自变量x的测量单位会改变其相应回归系数和标准误的单位但不会改变原有的显著性水平以及对其影响方向的解释。 非线性关系的类型 X和Y关系的一般表达形式: g(Y)=f(β, X, ε) 变量的非线性: 这种关联可以表达为 g(Y)=α+β1f1(X)+ β2f2(X)+β3f3(X)+…+ε 其中 g, f1, f2…… 表示因变量Y和自变量X各自的函数,有可能是非线性的. 可以写成上述形式的X与Y的关系也被称为“可加线性关系transformably linear”,“真线性intrinsically linear”或“自线性essentially linear” 参数的非线性:这种关系可以表达为 g(Y)=α+f(β, X, ε) 其中 g 和 f 可以是非线性函数. 可以写成上述形式的X与Y的关系也被称为“不可化约的线性关系non-transformably linear”,“真非线性intrinsically nonlinear”或“自非线性essentially non-linear” ? 解决非线性问题: 如果问题仅存在于变量的非线性中,我们可以对变量施加函数变换以便转化为线性形式,进而使用转换后的变量参与回归分析。 如果参数本身是非线性的,则需要使用非线性估计方法。 例1:Y可以写成X及X平方的函数(多项式函数,curvilinear): Y=α+β1X+β2X2+ε 例2: 近似指数函数关系: Y=e(α+βX) ==( log(Y)= α+βX 可能通过对因变量Y取对数化为线性方程。 例3: 乘数关系(Multiplicative Relationship) (人口流动的重力模型) 其中Yij 表示从i处向j处流动的人口总数,Pi 表示i处的人口数,Pj 表示 j处的人口数,Dij 表示i 处到 j处的距离. 我们对上述方程的两边同时取对数化为如下的线性形式: log(Yij)=log(α)+βlog(Pi)+γlog(Pj)-δlog(Dij)+log(εij) 或Yij*= α*+ βPi*+γPj*-δDij*+εij* 例4: 罗吉斯蒂回归(Logistic Regression) 如果我们想研究自变量X对于一个二分的因变量Y的影响,则在X取特定值的时候因变量Y呈现状态1的概率可以写成如下的罗吉斯蒂函数的形式: 而其累积概率密度函数可以图示为: 例5: “多因多果模型(Multiple Indicator Multiple Cause Model,MIMIC Model)” 假设Y1 Y2 和Y3是一个潜在变量F的三个指标变量(indicator),而F用来测量社会地位、政治地位和经济地位。此外,假设F 受自变量X1 和X2,如收入和教育程度的影响。 则这一模型可以写成如下的“因子模型(Factor Model)”的模式: Y1i=λ1Fi+ε1i Y2i=λ2Fi+ε2i Y3i=λ3Fi+ε3 Fi=γ1X1i+γ2X2i+ζi 这一模型也可以图示为: 但是,如果F是不可以直接观测的变量,而我们只知道变量Y和X的情况。那么上述模型可以化为: Y1i=λ1γ1X1i+ λ1γ2X2i+ λ1ζi +ε1i Y2i=λ2γ1X1i+ λ2γ2X2i+ λ2ζi +ε3i Y3i=λ3γ1X1i+ λ3γ2X2i+ λ3ζi +ε3i 由于参数λ 和γ以乘积的形式进入模型,则这一模型对于参数是非线性的。同样地,若我们只做X对于Y的回归分析,则其结果中的参数估计要受到非线性约束的影响。 对于非线性模型,我们通常使用最大似然法而不是最小二乘法进行参数估计。 在实际操作的过程中,真实的数据只会近似地服从于某种非线性模型。如果线性模型与非线性模型的偏别不太大,我们倾向于使用自线性的模型。 在一些特殊情况中,如因变量是二分变量或是使用MIMIC 模型时,我们需要可以分析非线性模型的软件。事实上,当前的多数软件包中都内建了非线性分析的功能。 2. 非线性的统计检验: 我们有如下两个模型: y=β0+β1x+ε y=β0+β1x+β2x2+ε 我们可以使用F检验来判断相对于模型(1),模型(2)的拟合能力是否有显著的增强;也可以使用t检验来检验参数是否显著。不论使用那个检验,如果结果显著则说明我们需要使用模型(2)来更好地拟合数据。 非线性的全局检验(Global Test): 将自变量X离散为k个类别

文档评论(0)

yan698698 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档