Logistic模型及建模流程概述讲述.doc

下载文档 降价啦

81
0
约5.5千字
约 8页
2017-03-04 发布于湖北
举报
版权申诉
保障服务

Logistic模型及建模流程概述讲述.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Logistic模型及建模流程概述讲述

Logistic模型及建模流程概述 Logistic模型介绍问题的提出在商业及金融领域中，存在这么一类问题，问题中需要被解释的目标量通常可以用YES或者NO两种取值来表示，如：卖出了商品为YES，未卖出商品为NO；顾客对超市的本次宣传活动做了响应为YES，没有任何响应为NO；信用卡持卡人本月逾期付款为YES，按时还款了为NO；等等；对于这类问题的分析，我们不可以采用标准的线性回归对其进行建模分析，是因为目标变量的二元分布违背了线性回归的重要假设模型的目标是给出一个（0，1）之间的概率，而标准的线性回归模型产生的值是在这个范围之外 Logistic模型对于上述问题，我们提出了logistic模型： Logistic模型可以保证：值在- (和+ (之间；估计出来的概率值在0和1之间；与事件odds（）直接相关；可以很好地将问题转化为数学问题，并且模型结果容易解释； Logistics回归的假设概率是自变量的logistics函数这样得到的概率似乎没有实际意义，只是反映一种趋势，比较大时p就会比较大取log值得到： logodds 这样可以线性化，我们把这模型称为‘linear in the log-odds’ 模型假设：没有重要变量被忽略，不包含使得系数有偏的相关变量不包含外来变量，包含的不相关变量会增加参数估计的标准误差，但是却不会使得系数有偏。观测值独立自变量的观测值没有误差最大似然准则抛一枚硬币10次，结果如下: T H T T T H T T T H 假设结果独立，考虑得到的结果的概率，P(T H T T T H T T T H) = P(T)P(H)P(T)P(T)P(T)P(H)P(T)P(T)P(T)P(H)=P(H)3 [1-P(H)]7 ，如果我们能计算出参数P(H)的值，就能得到掷硬币结果的概率的数值。如果我们已知掷硬币的结果，如何得到P(H)的值呢？假设P=P(H)，y=硬币头像一面朝上的次数，n=掷硬币的次数似然函数给出了掷硬币结果的似然值，它是P的函数；最大似然估计指出P的最佳估计值是使得似然函数最大的值。为了简化计算，代替最大化L(P)，我们对L(P)取log值，然后取最大值，log是单调递增函数，这样使得L(P)最大的P的值也是使得log（L(P)）最大的值。最大化log似然函数，使：解出P值：将最大似然估计用于logistics回归令Y=(y1,y2,y3,…,yn)是随机变量（Y1,Y2,Y3,…..Yn）的一组样本值，然后似然函数可以写成where，但是假如样本值不独立的话，此步骤就存在问题。对似然函数取log值，得：令 Logistics回归的似然等式对上式的参数取导数：使上面两式为零，解出参数的似然估计值。这些方程都是非线性的，所以利用迭代可以找出答案。这个过程也有可能是不收敛的。在介绍完logistic模型后，我们开始按照数据建模的流程来对各个分析环节进行讨论。模型设计（Model Design）建模目标我们在对数据做分析之前，首先需要考虑的是构造模型的商业目的所在。比如说我们针对汽车贷款的数据进行分析，是希望能够估计出每笔汽车贷款人可能会发生违约的概率，从而建立一个信贷审批的决策流程。如果没有明确模型的目的和用途，模型的构建工作就难进行下去。除了明确建模商业目的外，我们还需要确定模型的实施事项。比如说构建好的模型是实验模型，局域范围内使用，还是全面推广；模型的使用时间是多长；……，这些问题都需要事先考虑清楚。总的来说，我们在建模分析模型之前，需要考虑好：我们为什么需要模型？如何使用我们建好的模型？谁将使用我们的模型？模型什么时候需要？数据明确了建模目标之后，我们需要系统地整理我们的数据或者说样本了。我们需要了解：我们可能可以运用的数据有哪些；哪些是内部数据源的数据，哪些是需要向客户索取的；我们需要多久的数据；数据有部分缺失怎么办；如何抽取能够代表总体的无偏样本；是不是每个变量都有现实意义；我们还需要单独针对目标变量进行分析。在解决某些问题的时候，目标变量并不能很容易的明确下来，我们需要根据实际的业务经验，将数据做一些统计、变换，得到建模所需的目标变量值。比方说，我们在预测每位汽车贷款人发生违约的概率时，我们需要实现定义哪些贷款人发生过违约，那什么样的行为才能定义为违约呢？在美国，通常定义联系9个月以上没有还款的行为定义为违约事件，在建模时，我们将这样一批样本的目标变量定义为“1”，剩余样本