基于两阶段优化算法客户信用评估问题研究.docVIP

下载本文档

2
0
约2.96千字
约 7页
2018-06-23 发布于福建
举报
版权申诉

基于两阶段优化算法客户信用评估问题研究.doc

此“经济”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于两阶段优化算法客户信用评估问题研究

基于两阶段优化算法客户信用评估问题研究　　摘要：在信用评估问题的研究中，决策树生成的规则便于决策者理解和应用。本文采用GMDH输入输出模型先挑选中对结果影响较重要的属性，然后再用决策树进行分类。通过研究，取得了良好的分类效果。　　关键词：GMDH 决策树信用评估　　一、前言　　目前，我国的信用卡业务虽然还处于发展初期，但是随着客户贷款数量的迅速增长，为了防范潜在风险，减少发卡机构的损失。在对客户发放信用卡之前，对其进行信用评估已成为解决客户信用风险的重要方法之一。决策树是基于统计理论的非参数识别技术，可以自动进行变量选择，降低维数，分类结果表达形式简单易懂，并可有效的用于对数据的处理，所以被广泛应用于数据挖掘的分类当中。但对于现实的信用评估问题，由于客户的信息量大、属性多，单独使用决策树易造成运算过程复杂。这就需要在建立决策树之前删除多余的属性，然后再用决策树进行分类。本文利用澳大利亚银行的数据研究信用评估问题，在建立决策树之前，采用GMDH输入输出模型先挑选中对分类结果影响较重要的属性，然后再利用决策树进行分类，以达到对决策树优化的效果。　　二、相关模型方法概述　　1. GMDH输入输出模型　　数据分组处理算法（Group Method of Data Handling）是乌克兰科学院A.G.Ivakhnenko在1967年首次提出的。GMDH作为一种自动产生模型的算法，它使用的是演化（遗传、变异和选择）的原则，实现一个模型结构综合和模型确认的自动化过程，模型从数据中自动产生，以最优的传递函数网络的形式，重复产生大量具有增长复杂度的竞争模型。进行相应的模型确认并留下最好的选择，直到产生一个最优复杂度模型。　　GMDH方法有两个基本思想：（1）以黑箱方法为主要方法分析输入输出关系；（2）用基本函数的网络互联来表达复杂函数。它从参考函数构成的初始模型（函数）集合出发，按一定的法则产生新的中间候选模型（遗传、变异），再经过筛选（选择），重复这样一个遗传、变异、选择和进化的过程，使中间候选模型的复杂度不断增加，直至得到最优复杂度模型。　　2.决策树理论　　决策树是??种类似于流程图的树结构，起源于20世纪70年代后期和80年代初期，由J.Ross Quinlan提出了ID3算法，这种算法使用贪心方法，以自顶向下的递归的分治方式构造，将数据从根节点向下逐步划分，在内部节点上进行属性的比较，训练集即被递归地划分为子集，最后形成分类的规则。比较经典的决策树算法有基于信息熵的ID3算法及能处理连续属性的C4.5算法。　　ID3算法计算每个属性的信息增益，并选取具有最高增益的属性作为给定集合的测试属性。对被选取的测试属性创建一个节点，并以该节点的属性标记，对该属性的每个值创建一个分支并以此来划分样本。C4.5算法是对ID3算法的改进，ID3处理的是离散的属性，而C4.5算法能处理连续的属性，并在以下几方面对ID3算法进行了改进：（1）用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；（2）在树构造过程中进行剪枝；（3）能够完成对连续属性的离散化处理；（4）能够对不完整数据进行处理。　　三、两阶段优化算法模型及算法步骤　　针对信用评估这一实际问题，本文将特征提取与决策树结合起来构建算法模型，以达到对决策树的优化。第一阶段：先用GMDH特征提取方法对原有属性进行筛选，从中抽取对结果影响较大的属性；第二阶段：用提取出的属性建立决策树模型，具体操作步骤如下：　　（1）将数据样本集（假设有N个数据样本）分为训练集A和检测集B（）；　　（2）用K-G多项式建立因变量（输出）和自变量（输入）之间的一般关系，例如对于三输入单输出系统，可采取二次K-G多项式　　为参考函数，并以它的子项作为建模网络结构中的m个初始模型：，此处m=10。　　（3）从具有外补充性质的选择准则中选出一个（或若干个）作为目标函数（体系），或称为外准则（体系），产生第一层中间模型。同时在训练集A上估计参数，对第一层中间模型进行筛选。根据外准则，在检测集B上对第一层中间模型进行筛选，选出的中间模型作为网络第二层的输入变量；　　（4）形成最优复杂度模型网络结构。重复步骤3，可依次产生第二、第三…层中间模型，最终形成可用于分析的显式最优复杂度模型。即得出与输出变量最相关的几个输入变量，假设为xi，xj，…xn；　　（5）计算xi，xj，…，xn的信息增益率，以信息增益率最大的属性作为根节点的测试属性，对属性的值创建分支，据此划分样本；　　（6）在各节点内计算剩余属性的信息增益率，选择信息增益率最大的属性作为此分支的下一个测试属性，重复此步骤直到结点属性各分支下的训练样本属于同一类或