- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Logistic模型及建模流程概述课案
Logistic模型及建模流程概述
Logistic模型介绍
问题的提出
在商业及金融领域中,存在这么一类问题,问题中需要被解释的目标量通常可以用YES或者NO两种取值来表示,如:
卖出了商品为YES,未卖出商品为NO;
顾客对超市的本次宣传活动做了响应为YES,没有任何响应为NO;
信用卡持卡人本月逾期付款为YES,按时还款了为NO;
等等;
对于这类问题的分析,我们不可以采用标准的线性回归对其进行建模分析,是因为
目标变量的二元分布违背了线性回归的重要假设
模型的目标是给出一个(0,1)之间的概率,而标准的线性回归模型产生的值是在这个范围之外
Logistic模型
对于上述问题,我们提出了logistic模型:
Logistic模型可以保证:
值在- (和+ (之间;
估计出来的概率值在0和1之间;
与事件odds()直接相关;
可以很好地将问题转化为数学问题,并且模型结果容易解释;
Logistics回归的假设
概率是自变量的logistics函数
这样得到的概率似乎没有实际意义,只是反映一种趋势,比较大时p就会比较大
取log值得到:
logodds
这样可以线性化,我们把这模型称为‘linear in the log-odds’
模型假设:
没有重要变量被忽略,不包含使得系数有偏的相关变量
不包含外来变量,包含的不相关变量会增加参数估计的标准误差,但是却不会使得系数有偏。
观测值独立
自变量的观测值没有误差
最大似然准则
抛一枚硬币10次,结果如下: T H T T T H T T T H
假设结果独立,考虑得到的结果的概率,P(T H T T T H T T T H) = P(T)P(H)P(T)P(T)P(T)P(H)P(T)P(T)P(T)P(H)=P(H)3 [1-P(H)]7 ,如果我们能计算出参数P(H)的值,就能得到掷硬币结果的概率的数值。
如果我们已知掷硬币的结果,如何得到P(H)的值呢?
假设P=P(H),y=硬币头像一面朝上的次数,n=掷硬币的次数
似然函数给出了掷硬币结果的似然值,它是P的函数;
最大似然估计指出P的最佳估计值是使得似然函数最大的值。
为了简化计算,代替最大化L(P),我们对L(P)取log值,然后取最大值,log是单调递增函数,这样使得L(P)最大的P的值也是使得log(L(P))最大的值。
最大化log似然函数,使:
解出P值:
将最大似然估计用于logistics回归
令Y=(y1,y2,y3,…,yn)是随机变量(Y1,Y2,Y3,…..Yn)的一组样本值,
然后似然函数可以写成where,但是假如样本值不独立的话,此步骤就存在问题。
对似然函数取log值,得:
令
Logistics回归的似然等式
对上式的参数取导数:
使上面两式为零,解出参数的似然估计值。
这些方程都是非线性的,所以利用迭代可以找出答案。这个过程也有可能是不收敛的。
在介绍完logistic模型后,我们开始按照数据建模的流程来对各个分析环节进行讨论。
模型设计(Model Design)
建模目标
我们在对数据做分析之前,首先需要考虑的是构造模型的商业目的所在。比如说我们针对汽车贷款的数据进行分析,是希望能够估计出每笔汽车贷款人可能会发生违约的概率,从而建立一个信贷审批的决策流程。如果没有明确模型的目的和用途,模型的构建工作就难进行下去。
除了明确建模商业目的外,我们还需要确定模型的实施事项。比如说构建好的模型是实验模型,局域范围内使用,还是全面推广;模型的使用时间是多长;……,这些问题都需要事先考虑清楚。
总的来说,我们在建模分析模型之前,需要考虑好:
我们为什么需要模型?
如何使用我们建好的模型?
谁将使用我们的模型?
模型什么时候需要?
数据
明确了建模目标之后,我们需要系统地整理我们的数据或者说样本了。
我们需要了解:
我们可能可以运用的数据有哪些;
哪些是内部数据源的数据,哪些是需要向客户索取的;
我们需要多久的数据;
数据有部分缺失怎么办;
如何抽取能够代表总体的无偏样本;
是不是每个变量都有现实意义;
我们还需要单独针对目标变量进行分析。在解决某些问题的时候,目标变量并不能很容易的明确下来,我们需要根据实际的业务经验,将数据做一些统计、变换,得到建模所需的目标变量值。
比方说,我们在预测每位汽车贷款人发生违约的概率时,我们需要实现定义哪些贷款人发生过违约,那什么样的行为才能定义为违约呢?在美国,通常定义联系9个月以上没有还款的行为定义为违约事件,在建模时,我们将这样一批样本的目标变量定义为“1”,剩余样本的目标变量定义为“0”,然后再用logisitic模型对其建模分析。
在建模过程之前,我们需
您可能关注的文档
- Lloyd-MAX算法的研究报告.doc
- LLTE知识竞赛问答题背诵精华版.docx
- 军垦民间文学的民俗文化阐释.ppt
- Linux程序设计.pptx
- LMS.医院资质证照管理系统.V1.0.pptx
- 农村道路项目申报(最终版).ppt
- LKJ2000型监控装置_常见故障处理_交流讲座.ppt
- LM2576数据手册翻译.docx
- LKJ2000模式规则介绍.ppt
- LNG接收站施工界面表.doc
- 2023-2024学年广东省深圳市龙岗区高二(上)期末物理试卷(含答案).pdf
- 2023-2024学年贵州省贵阳市普通中学高一(下)期末物理试卷(含答案).pdf
- 21.《大自然的声音》课件(共45张PPT).pptx
- 2023年江西省吉安市吉安县小升初数学试卷(含答案).pdf
- 2024-2025学年广东省清远市九校联考高一(上)期中物理试卷(含答案).pdf
- 广东省珠海市六校联考2024-2025学年高二上学期11月期中考试语文试题.pdf
- 2024-2025学年语文六年级上册第4单元-单元素养测试(含答案).pdf
- 2024-2025学年重庆八中高三(上)月考物理试卷(10月份)(含答案).pdf
- 安徽省安庆市潜山市北片学校联考2024-2025学年七年级上学期期中生物学试题(含答案).pdf
- 贵州省部分校2024-2025学年九年级上学期期中联考数学试题(含答案).pdf
文档评论(0)