- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于两阶段优化算法客户信用评估问题研究
基于两阶段优化算法客户信用评估问题研究
摘 要:在信用评估问题的研究中,决策树生成的规则便于决策者理解和应用。本文采用GMDH输入输出模型先挑选中对结果影响较重要的属性,然后再用决策树进行分类。通过研究,取得了良好的分类效果。
关键词:GMDH 决策树 信用评估
一、前言
目前,我国的信用卡业务虽然还处于发展初期,但是随着客户贷款数量的迅速增长,为了防范潜在风险,减少发卡机构的损失。在对客户发放信用卡之前,对其进行信用评估已成为解决客户信用风险的重要方法之一。决策树是基于统计理论的非参数识别技术,可以自动进行变量选择,降低维数,分类结果表达形式简单易懂,并可有效的用于对数据的处理,所以被广泛应用于数据挖掘的分类当中。但对于现实的信用评估问题,由于客户的信息量大、属性多,单独使用决策树易造成运算过程复杂。这就需要在建立决策树之前删除多余的属性,然后再用决策树进行分类。本文利用澳大利亚银行的数据研究信用评估问题,在建立决策树之前,采用GMDH输入输出模型先挑选中对分类结果影响较重要的属性,然后再利用决策树进行分类,以达到对决策树优化的效果。
二、相关模型方法概述
1. GMDH输入输出模型
数据分组处理算法(Group Method of Data Handling)是乌克兰科学院A.G.Ivakhnenko在1967年首次提出的。GMDH作为一种自动产生模型的算法,它使用的是演化(遗传、变异和选择)的原则,实现一个模型结构综合和模型确认的自动化过程,模型从数据中自动产生,以最优的传递函数网络的形式,重复产生大量具有增长复杂度的竞争模型。进行相应的模型确认并留下最好的选择,直到产生一个最优复杂度模型。
GMDH方法有两个基本思想:(1)以黑箱方法为主要方法分析输入输出关系;(2)用基本函数的网络互联来表达复杂函数。它从参考函数构成的初始模型(函数)集合出发,按一定的法则产生新的中间候选模型(遗传、变异),再经过筛选(选择),重复这样一个遗传、变异、选择和进化的过程,使中间候选模型的复杂度不断增加,直至得到最优复杂度模型。
2.决策树理论
决策树是??种类似于流程图的树结构,起源于20世纪70年代后期和80年代初期,由J.Ross Quinlan提出了ID3算法,这种算法使用贪心方法,以自顶向下的递归的分治方式构造,将数据从根节点向下逐步划分,在内部节点上进行属性的比较,训练集即被递归地划分为子集,最后形成分类的规则。比较经典的决策树算法有基于信息熵的ID3算法及能处理连续属性的C4.5算法。
ID3算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定集合的测试属性。对被选取的测试属性创建一个节点,并以该节点的属性标记,对该属性的每个值创建一个分支并以此来划分样本。C4.5算法是对ID3算法的改进,ID3处理的是离散的属性,而C4.5算法能处理连续的属性,并在以下几方面对ID3算法进行了改进:(1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;(2)在树构造过程中进行剪枝;(3)能够完成对连续属性的离散化处理;(4)能够对不完整数据进行处理。
三、两阶段优化算法模型及算法步骤
针对信用评估这一实际问题,本文将特征提取与决策树结合起来构建算法模型,以达到对决策树的优化。第一阶段:先用GMDH特征提取方法对原有属性进行筛选,从中抽取对结果影响较大的属性;第二阶段:用提取出的属性建立决策树模型,具体操作步骤如下:
(1)将数据样本集(假设有N个数据样本)分为训练集A和检测集B();
(2)用K-G多项式建立因变量(输出)和自变量(输入)之间的一般关系,例如对于三输入单输出系统,可采取二次K-G多项式
为参考函数,并以它的子项作为建模网络结构中的m个初始模型:,此处m=10。
(3)从具有外补充性质的选择准则中选出一个(或若干个)作为目标函数(体系),或称为外准则(体系),产生第一层中间模型。同时在训练集A上估计参数,对第一层中间模型进行筛选。根据外准则,在检测集B上对第一层中间模型进行筛选,选出的中间模型作为网络第二层的输入变量;
(4)形成最优复杂度模型网络结构。重复步骤3,可依次产生第二、第三…层中间模型,最终形成可用于分析的显式最优复杂度模型。即得出与输出变量最相关的几个输入变量,假设为xi,xj,…xn;
(5)计算xi,xj,…,xn的信息增益率,以信息增益率最大的属性作为根节点的测试属性,对属性的值创建分支,据此划分样本;
(6)在各节点内计算剩余属性的信息增益率,选择信息增益率最大的属性作为此分支的下一个测试属性,重复此步骤直到结点属性各分支下的训练样本属于同一类或
您可能关注的文档
- 在利率市场化加速推进下城商行发展策略建议.doc
- 在华跨国公司避税影响因素实证分析.doc
- 在危难中读报纸曼德拉 等.doc
- 在可持续发展理念下探讨城市规划内涵.doc
- 在商业银行中实行标杆管理研究.doc
- 在国际商务礼仪中手势.doc
- 在国际电子商务发展趋势下中国跨境电子商务发展趋势探讨.doc
- 在城乡差距视角下人力资本参与收入分配作用.doc
- 在实习中培养学生养成良好行为习惯.doc
- 在我国物流运输企业会计信息系统中网络会计发展.doc
- 2025江苏苏州高新区国昇资本运营有限公司优秀人才现场招聘笔试历年参考题库附带答案详解.pdf
- 2025浙江台州新名匠劳务有限公司招聘笔试历年参考题库附带答案详解.pdf
- 2025福建泉州德化石牛山景区经营有限公司招聘合同制人员19人笔试历年参考题库附带答案详解.pdf
- 2025年湖北中医药高等专科学校单招笔试职业能力测验试题库含答案解析(5套共100道单选合辑).docx
- 2025江苏南京市江北新区产业投资集团招聘笔试历年参考题库附带答案详解.pdf
- 2025福建厦门市集聚英贤教育咨询有限公司招聘2人笔试历年参考题库附带答案详解.pdf
- 2025江苏启东创新型经济园开发有限公司招聘6人笔试历年参考题库附带答案详解.pdf
- 2025年综合类-国家统考科目-国家统考科目-第十二章我国医疗卫生与计划生育法规与政策历年真题摘选带.docx
- 2025江苏南京雨花新城发展有限公司招聘通过及人员笔试历年参考题库附带答案详解.pdf
- 2025重庆市地产集团招聘项目管理会计招商策划人力资源等岗位招聘11人笔试历年参考题库附带答案详解.pdf
最近下载
- 上市公司数据资产入表案例分析与启示.pptx VIP
- 《工贸企业有限空间作业安全规定》(应急管理部13号令)培训.pptx VIP
- 应收账款账期到期提醒台账模板.xlsx VIP
- 《中华人民共和国民用航空法》培训解读课件.pptx VIP
- 02《红楼梦》整本书阅读回目自测(21-40回)(分层练习)-2024-2025学年高一语文同步精品讲练(统编版必修下册)解析版.docx VIP
- 防护棚安全通道搭设施工方案1.docx VIP
- 街区市集规划案.pptx VIP
- 污水零直排运维台账.docx VIP
- 2025年重庆市永川区社区工作者招聘考试笔试试题(含答案).pdf
- 安全生产治本攻坚三年行动PPT课件.pptx VIP
文档评论(0)