基于两阶段优化算法客户信用评估问题研究.docVIP

基于两阶段优化算法客户信用评估问题研究.doc

此“经济”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于两阶段优化算法客户信用评估问题研究

基于两阶段优化算法客户信用评估问题研究   摘 要:在信用评估问题的研究中,决策树生成的规则便于决策者理解和应用。本文采用GMDH输入输出模型先挑选中对结果影响较重要的属性,然后再用决策树进行分类。通过研究,取得了良好的分类效果。   关键词:GMDH 决策树 信用评估   一、前言   目前,我国的信用卡业务虽然还处于发展初期,但是随着客户贷款数量的迅速增长,为了防范潜在风险,减少发卡机构的损失。在对客户发放信用卡之前,对其进行信用评估已成为解决客户信用风险的重要方法之一。决策树是基于统计理论的非参数识别技术,可以自动进行变量选择,降低维数,分类结果表达形式简单易懂,并可有效的用于对数据的处理,所以被广泛应用于数据挖掘的分类当中。但对于现实的信用评估问题,由于客户的信息量大、属性多,单独使用决策树易造成运算过程复杂。这就需要在建立决策树之前删除多余的属性,然后再用决策树进行分类。本文利用澳大利亚银行的数据研究信用评估问题,在建立决策树之前,采用GMDH输入输出模型先挑选中对分类结果影响较重要的属性,然后再利用决策树进行分类,以达到对决策树优化的效果。   二、相关模型方法概述   1. GMDH输入输出模型   数据分组处理算法(Group Method of Data Handling)是乌克兰科学院A.G.Ivakhnenko在1967年首次提出的。GMDH作为一种自动产生模型的算法,它使用的是演化(遗传、变异和选择)的原则,实现一个模型结构综合和模型确认的自动化过程,模型从数据中自动产生,以最优的传递函数网络的形式,重复产生大量具有增长复杂度的竞争模型。进行相应的模型确认并留下最好的选择,直到产生一个最优复杂度模型。   GMDH方法有两个基本思想:(1)以黑箱方法为主要方法分析输入输出关系;(2)用基本函数的网络互联来表达复杂函数。它从参考函数构成的初始模型(函数)集合出发,按一定的法则产生新的中间候选模型(遗传、变异),再经过筛选(选择),重复这样一个遗传、变异、选择和进化的过程,使中间候选模型的复杂度不断增加,直至得到最优复杂度模型。   2.决策树理论   决策树是??种类似于流程图的树结构,起源于20世纪70年代后期和80年代初期,由J.Ross Quinlan提出了ID3算法,这种算法使用贪心方法,以自顶向下的递归的分治方式构造,将数据从根节点向下逐步划分,在内部节点上进行属性的比较,训练集即被递归地划分为子集,最后形成分类的规则。比较经典的决策树算法有基于信息熵的ID3算法及能处理连续属性的C4.5算法。   ID3算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定集合的测试属性。对被选取的测试属性创建一个节点,并以该节点的属性标记,对该属性的每个值创建一个分支并以此来划分样本。C4.5算法是对ID3算法的改进,ID3处理的是离散的属性,而C4.5算法能处理连续的属性,并在以下几方面对ID3算法进行了改进:(1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;(2)在树构造过程中进行剪枝;(3)能够完成对连续属性的离散化处理;(4)能够对不完整数据进行处理。   三、两阶段优化算法模型及算法步骤   针对信用评估这一实际问题,本文将特征提取与决策树结合起来构建算法模型,以达到对决策树的优化。第一阶段:先用GMDH特征提取方法对原有属性进行筛选,从中抽取对结果影响较大的属性;第二阶段:用提取出的属性建立决策树模型,具体操作步骤如下:   (1)将数据样本集(假设有N个数据样本)分为训练集A和检测集B();   (2)用K-G多项式建立因变量(输出)和自变量(输入)之间的一般关系,例如对于三输入单输出系统,可采取二次K-G多项式   为参考函数,并以它的子项作为建模网络结构中的m个初始模型:,此处m=10。   (3)从具有外补充性质的选择准则中选出一个(或若干个)作为目标函数(体系),或称为外准则(体系),产生第一层中间模型。同时在训练集A上估计参数,对第一层中间模型进行筛选。根据外准则,在检测集B上对第一层中间模型进行筛选,选出的中间模型作为网络第二层的输入变量;   (4)形成最优复杂度模型网络结构。重复步骤3,可依次产生第二、第三…层中间模型,最终形成可用于分析的显式最优复杂度模型。即得出与输出变量最相关的几个输入变量,假设为xi,xj,…xn;   (5)计算xi,xj,…,xn的信息增益率,以信息增益率最大的属性作为根节点的测试属性,对属性的值创建分支,据此划分样本;   (6)在各节点内计算剩余属性的信息增益率,选择信息增益率最大的属性作为此分支的下一个测试属性,重复此步骤直到结点属性各分支下的训练样本属于同一类或

您可能关注的文档

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档