二项Logistic-回归参数最大似然估计的计算.docVIP

二项Logistic-回归参数最大似然估计的计算.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

二项Logistic回归参数最大似然估计的计算

1Logistic回归的根本思想

在地震风险评估中,研究者往往关心地震发生时,地表发生破裂的概率,地表破裂是由哪些因素引起的等问题。

利用以往的相关数据找出统计规律性来解决这些问题,实质上可以转化为一个多元回归分析问题,其中,为随机变量。

由于因变量的取值只有两个状态:破裂()和不破裂(),因此直接寻找因变量和自变量的关系非常困难。于是,可以把研究问题转换一个角度,不去直接分析和的关系,而是分析条件概率和的关系,这等价于寻找一个取值在0到1之间的连续函数。

数学上满足这种条件的函数存在且不唯一,Logistic回归就是满足这种要求的函数之一。和线性回归分析类似,Logistic回归根本原理就是利用一组观测数据拟合一个Logistic模型,然后借助这个模型来揭示总体中假设干个自变量与一个因变量取每个值的概率之间的依存关系,并评估用这一模型模拟相关事物变化规律的准确性。具体地说,Logistic回归分析可以从统计意义上确定在消除了其它变量的影响后,每一个自变量的变化是否引起因变量取某个值的概率的变化,并估计出在其它自变量固定不变的情况下,每个自变量对因变量取某个值的概率的数值影响大小。

在使用Logistic回归分析前,需要明确模型的使用条件:1、要求因变量是分类变量,包括顺序变量和名义变量,不管哪种变量,都要用数字表示它,如可以令表示地震发生时地表破裂,令表示地震发生时地表未破裂;2、自变量可以是(i)数值型连续变量,如地震的震级,(ii)顺序变量,如覆盖层的厚度分组(10-20m,20-40m等),(iii)名义变量,如地震类型,可令走滑型地震为1,正断型地震为2,逆冲型地震为3。

2多元二项Logistic回归模型的定义

由于地震发生时地表是否破裂受到多个因素的影响,故引入多元Logistic回归模型。假设因变量是一个取值为1和0的二值变量,是影响的个因素,回归系数,那么关于的元Logistic回归模型定义为

(1)

由式(1)可得

(2)

3Logistic回归参数估计

我们用最大似然估计方法去求模型的参数。

再假设从总体中抽取一个容量为的随机样本,,其中,,那么有似然函数为

(3)

两边取对数,整理可得

(4)

写成向量形式为

(4’)

为求式(4)的驻点,可求对数似然函数关于的似然方程组为

(5)

写成向量形式为

式(5)为非线性方程组,一般情况下没有解析解,可以用Newton-Raphson迭代方法求其数值解,令

(6)

那么关于的Jacobian矩阵为

(7)

向量形式为

(7’)

根究Newton-Raphson方法的原理,可得参数迭代公式为

(8)

算法如下:

Step1:给定参数的初值参数和误差容许精度,令;

Step2:计算;

Step3:假设或,即满足容许的精度,那么结束,否那么更新参数,,转至Step2.

当给定地震发生时,地表破裂是否发生的数据时,根据上面的算法,可以求出参数的最大似然估计。

我们按照上述算法用MATLAB编写了多元Logistic回归参数估计的程序,可以给出参数估计值,详见附录。

附录1用Newton-Raphson方法求解参数,附录2用直接优化对数似然函数方法求解参数,附录3用MATLAB自带的广义回归模型估计参数。附录4是别人做的Logistic回归的例子,用的软件是SAS〔一种经过美国FDA认证的昂贵的商业统计软件〕得到的结果。附录5是SPSS操作的过程和得到的结果。

附录1:MatlabFilesforLogisticRegression

%假设我们有一个数据,45个观测值,四个变量,包括:

%1.age〔年龄,数值型〕;

%2.vision〔视力状况,分类型,1表示好,0表示有问题〕;

%3.drive〔驾车教育,分类型,1表示参加过驾车教育,0表示没有〕和

%4.一个分类型输出变量accident〔去年是否出过事故,1表示出过事故,0表示没有〕。

%我们的目的就是要考察前三个变量与发生事故的关系。

%第1至4列分别为accidentagevisiondrive;

clear,clc,closeall

data=[11711

14400

14810

15500

17511

03501

04211

05700

0280

您可能关注的文档

文档评论(0)

147****4268 + 关注
实名认证
文档贡献者

认真 负责 是我的态度

1亿VIP精品文档

相关文档