广义线性模型.docVIP

下载本文档

72
0
约2.42万字
约 35页
2019-09-29 发布于河北
举报
版权申诉

广义线性模型.doc

1、本文档共35页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE 60 GENERALIZEDLINEARMODELS PAGE 2 广义线性模型广义线性模型*（Nelder和Wedderburn，1972）除了正态分布，也允许反应分布，以及模型结构中的一定程度的非线性。GLM具有基本结构 g(μi)=Xiβ, 其中μi≡E（Yi），g是光滑单调链接函数，Xi是模型矩阵的第i行，X和β是未知参数的向量。此外，GLM通常会做出Yi是独立的和Yi服从一些指数族分布的假设。指数族分布包括许多对实际建模有用的分布，如泊松分布，二项分布，伽马分布和正态分布。GLM的综合参考文献是McCullagh和Nelder（1989），而Dobson（2001）提供了一个全面的介绍。因为广义线性模型是以“线性预测器”Xβ的形式详细说明的，所以线性模型的许多一般想法和概念通过一些修改而继续存在到广义线性模型中。除了必须选择的链接函数和分布之外，基本模型公式与线性模型公式基本相同。当然，如果恒等函数被选择作为链接以及正态分布，那么普通线性模型将作为特例被恢复。然而，泛化是以某种成本为代价的：现在的模型拟合必须要迭代完成，而且用于推理的分布结果是近似的，并且由大样本限制结果证明是正确的而不是精确的。但在深入探讨这些问题之前，请考虑几个简单的例子。 μi=cexp(bti), 例1：在疾病流行的早期阶段，新病例的发生率通常会随着时间以指数方式增加。因此，如果μi是第ti天的新病例的预期数量，则该形式的模型为请注意，“广义”和“一般”线性模型之间存在区别-后一个术语有时用于指除简单直线以外的所有线性模型。可能是合适的，其中c和b是未知参数。通过使用对数链路，这样的模型可以变成GLM形式 log(μi)=log(c)+bti=β0+tiβ1 （根据β0=logc和β1=b的定义）。请注意，模型的右侧现在在参数中是线性的。反应变量是每天新病例的数量，因为这是一个计数，所以泊松分布可能是一个合理的可以尝试的分布。因此，针对这种情况的GLM使用泊松反应分布，对数链路和线性预测器β0+tiβ1。 , 例2：狩猎动物捕获猎物的速度yi往往随着猎物密度xi的增加而增加，但最终会趋于平衡，当捕食者捕获尽可能多的猎物时。对于这种情况一个合适的模型可能是其中a是未知参数，表示最大捕获率，h是未知参数，表示捕获率为最大速率一半时的猎物密度。很显然，这个模型在其参数中是非线性的，但是通过使用倒数链路，右边的参数可以是线性的：（这里β0≡1/a和β1≡h/a）。在这种情况下，猎物捕获率的标准差可能与平均速率大致成比例，建议使用Gamma分布作为反应，并完成模型设定。们不限于示例的简单直线形式，但可以有对于线性模型可能具有的线性预测器的任何结构。 2.1GLMs的理论 GLM的估计和推理基于最大似然估计理论，尽管可能性的最大化需要迭代最小二乘法，与1.8.6节的方法相关。本部分首先介绍指数分布族，它允许发展一种通用方法来最大化GLM的可能性。然后基于似然理论的一般结果（在本章末尾推导）来讨论GLM的推论。在本节中，区分反应数据y和Y的观察值的随机变量有时很有用，所以它们在符号上具有区别性：对于估计和估计值，它尚未完成。 2.1.1指数族分布 fθ(y)=exp[{yθ?b(θ)}/a(φ)+c(y,φ)], GLM中的反应变量可以来自指数族的任何分布。如果一个分布的概率密度函数或概率质量函数可以写成，则该分布属于指数族分布其中b，a和c是任意函数，φ是任意的“尺度”参数，并且θ被称为分布的“典范参数”（在GLM上下文中，θ将完全依赖于模型参数β，但是目前没有必要做这个明确）。例如，很容易看出，正态分布是指数族的一员，因为 , . 表2.1给出了在R中为GLM实施的指数族成员的类似分解。用a，b和φ可以得到指数族分布的均值和方差的一般表达式。给定一个特定的y，θ的对数似然性仅仅只是将log[fθ（y）]视为θ的一个函数。那是 . 将l作为一个随机变量来处理，通过用随机变量Y替换特定的观测值y，可以评估?l/?θ的期望值：使用E（?l/?θ）=0这个一般结果，（在θ取真值时，参见2.4节中的（2.14））和重新排列意味着E（Y）=b0（θ）。（2.1）即任何指数族随机变量的均值由bw.r.t.的一阶导数给出。θ，其中b的形式取决于特定的分布。该等式是将GLM的模型参数β与指数族的典范参数联系起来的关键。在GLM中，参数β决定了反应变量的均值，并且通过（2.1），它们决定了每个反应观测值的典范参数。 , 再次对似然性微分处理 , 并将其插入到一般结果中，E（?2l/?θ2）=-E[（?l/?θ）2]（衍生物在真实θ值下计算，参见结果（2.16），第2.4节），重新安排第二个有用的一般结果： var(Y)=b