Logistic模型及建模流程概述讲述.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Logistic模型及建模流程概述讲述

Logistic模型及建模流程概述 Logistic模型介绍 问题的提出 在商业及金融领域中,存在这么一类问题,问题中需要被解释的目标量通常可以用YES或者NO两种取值来表示,如: 卖出了商品为YES,未卖出商品为NO; 顾客对超市的本次宣传活动做了响应为YES,没有任何响应为NO; 信用卡持卡人本月逾期付款为YES,按时还款了为NO; 等等; 对于这类问题的分析,我们不可以采用标准的线性回归对其进行建模分析,是因为 目标变量的二元分布违背了线性回归的重要假设 模型的目标是给出一个(0,1)之间的概率,而标准的线性回归模型产生的值是在这个范围之外 Logistic模型 对于上述问题,我们提出了logistic模型: Logistic模型可以保证: 值在- (和+ (之间; 估计出来的概率值在0和1之间; 与事件odds()直接相关; 可以很好地将问题转化为数学问题,并且模型结果容易解释; Logistics回归的假设 概率是自变量的logistics函数 这样得到的概率似乎没有实际意义,只是反映一种趋势,比较大时p就会比较大 取log值得到: logodds 这样可以线性化,我们把这模型称为‘linear in the log-odds’ 模型假设: 没有重要变量被忽略,不包含使得系数有偏的相关变量 不包含外来变量,包含的不相关变量会增加参数估计的标准误差,但是却不会使得系数有偏。 观测值独立 自变量的观测值没有误差 最大似然准则 抛一枚硬币10次,结果如下: T H T T T H T T T H 假设结果独立,考虑得到的结果的概率,P(T H T T T H T T T H) = P(T)P(H)P(T)P(T)P(T)P(H)P(T)P(T)P(T)P(H)=P(H)3 [1-P(H)]7 ,如果我们能计算出参数P(H)的值,就能得到掷硬币结果的概率的数值。 如果我们已知掷硬币的结果,如何得到P(H)的值呢? 假设P=P(H),y=硬币头像一面朝上的次数,n=掷硬币的次数 似然函数给出了掷硬币结果的似然值,它是P的函数; 最大似然估计指出P的最佳估计值是使得似然函数最大的值。 为了简化计算,代替最大化L(P),我们对L(P)取log值,然后取最大值,log是单调递增函数,这样使得L(P)最大的P的值也是使得log(L(P))最大的值。 最大化log似然函数,使: 解出P值: 将最大似然估计用于logistics回归 令Y=(y1,y2,y3,…,yn)是随机变量(Y1,Y2,Y3,…..Yn)的一组样本值, 然后似然函数可以写成where,但是假如样本值不独立的话,此步骤就存在问题。 对似然函数取log值,得: 令 Logistics回归的似然等式 对上式的参数取导数: 使上面两式为零,解出参数的似然估计值。 这些方程都是非线性的,所以利用迭代可以找出答案。这个过程也有可能是不收敛的。 在介绍完logistic模型后,我们开始按照数据建模的流程来对各个分析环节进行讨论。 模型设计(Model Design) 建模目标 我们在对数据做分析之前,首先需要考虑的是构造模型的商业目的所在。比如说我们针对汽车贷款的数据进行分析,是希望能够估计出每笔汽车贷款人可能会发生违约的概率,从而建立一个信贷审批的决策流程。如果没有明确模型的目的和用途,模型的构建工作就难进行下去。 除了明确建模商业目的外,我们还需要确定模型的实施事项。比如说构建好的模型是实验模型,局域范围内使用,还是全面推广;模型的使用时间是多长;……,这些问题都需要事先考虑清楚。 总的来说,我们在建模分析模型之前,需要考虑好: 我们为什么需要模型? 如何使用我们建好的模型? 谁将使用我们的模型? 模型什么时候需要? 数据 明确了建模目标之后,我们需要系统地整理我们的数据或者说样本了。 我们需要了解: 我们可能可以运用的数据有哪些; 哪些是内部数据源的数据,哪些是需要向客户索取的; 我们需要多久的数据; 数据有部分缺失怎么办; 如何抽取能够代表总体的无偏样本; 是不是每个变量都有现实意义; 我们还需要单独针对目标变量进行分析。在解决某些问题的时候,目标变量并不能很容易的明确下来,我们需要根据实际的业务经验,将数据做一些统计、变换,得到建模所需的目标变量值。 比方说,我们在预测每位汽车贷款人发生违约的概率时,我们需要实现定义哪些贷款人发生过违约,那什么样的行为才能定义为违约呢?在美国,通常定义联系9个月以上没有还款的行为定义为违约事件,在建模时,我们将这样一批样本的目标变量定义为“1”,剩余样本

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档