选择最佳的特征值预测银行贷款违约.docVIP

下载本文档

12
0
约1.22万字
约 14页
2017-06-24 发布于重庆
举报
版权申诉

选择最佳的特征值预测银行贷款违约.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

选择最佳的特征值预测银行贷款违约

选择最佳的特征值预测银行贷款违约 Zahra Yazdani*, Mohammad Mehdi Sepehri, Babak Teimourpour *Group of Information Technology Management, Payam Noor University, Tehran, Iran {Department of Industrial Engineering, Tarbiat Modares University, Tehran, Iran 简介对金融公司和银行来说，信用风险评估变得越来越为重要。巴塞尔委员会规定了信用风险评估的流程规则。巴塞尔委员会允许银行选择两种方法来计算其资本需求的信用风险。一种方法是，采用标准的方法，以标准化的方式度量信用风险，并支持外部的信用评估。另一种方法是，采用内部评级法，这需要银行监管机构明确的批准，允许银行采用内部信用风险的评级制度(BCBS, 2006)。在标准解释的基础上，信用风险的有效内容是违约概率，违约的损失和违约暴露。违约的概率(PD)是其中最重要的一个。根据巴塞尔新资本协议，违约被认为发生是当银行认为债务人不可能偿还其还贷的义务或者/和债务人逾期90天没有向银行提供任何信用义务的材料(BCBS, 2005)。内部评级法的基础，银行应该根据资产的类型对暴露的风险分类。经过分类的风险，他们需要评估每一项贷款和暴露的风险值(BCBS, 2001).。确定的违约概率是评估其他要素的先决条件，违约概率的评估时间为一年(BCBS, 2006)。本篇介绍了对违约概率模型数据挖掘的框架，这样做的目的是首先要确定有效的因素来评估违约概率，其次是预测新的贷款中的违约概率。商业问题近几年来，公司违约的数量已经有了显著的增加。它增加了银行的信贷风险，并要求银行提高其监管资本。根据内部评级法，银行必须根据资产的不同的潜在风险特征进行分类：企业，主权，银行，零售和公平性。在一般情况下，企业风险被定义为公司，合伙企业或个人独资企业的债务(BCBS, 2001)。因为违约概率是信贷风险中最重要的部分，目标是确定概率风险中的有效的特征值，并且评估根据公司资产分类的新的信贷的违约概率。有许多特征值，但是一些特征值是不相关的，只有一些特征值可能会影响模型的表现。使用不相关的特征值会导致很差的结果。为了避免陷入使用不相关的特征值，我们需要分析数据，做好准备，去选择有效特征值的最好子集。所提出的方法的最主要的目的是预测违约概率从而降低银行的信贷风险。数据提取在一些相关研究以及询问业界专家的基础上，我们确定并提取了影响企业信贷违约概率的最有效的特征值。提取的结果氛围四组：贷款特征，企业结构特征，行为特征和系统因素。因为银行不可能去控制系统因素，比如经济危机等。我们不考虑系统因素，仅仅使用银行数据库中存在的因素。因为现有的数据库中存在了大量的数据，我们将采用采样技术来提取数据。随机选取银行的十家分行作为样本，包括过去15年中的将近140,000例企业贷款。这些数据的时间是从1995年到2010年，在这些所有贷款中，只有极少数的违约发生。我们将数据分为2个独立的集合：第一个集合包含前面14年[0,14]的所有数据，约有124000个观察例子。另外一个集合是最后一年的数据[14,15],主要有16000例观察数据集。第一个数据集用于产生客户过去的行为特征，来分析在第二阶段的交易。目标函数（二元函数）是利用从第二集合所提取的特征和从第一集合产生的特征来预测违约概率。我们通过编程和使用SQL来完成这些步骤。我们把提取的数据转换成excel文件(/books/dmar/)，数据集合包含18个不同的特征值，具有不同的值和二元目标值。目标特征值为0或者1。表格8.1给出独立数据的类型和在附录中对特征值的描述。数据探索和准备数据挖掘和探索性数据分析是密切相关的。数据探索的本质是数据挖掘。如果没有足够的关于数据的知识，是不可能通过数据挖掘得到有效结果的。在使用数据之前，我们必须对它们深入了解。在应用数据挖掘方法之前对数据进行分析是非常有必要的。还有一些数据可视化工具帮助完成这些。我们提出了一些技术来应用到我们的数据探索中。我们使用不同的预处理技术来建立完美的数据集。数据清理方法，试图填补缺失值，平滑曲线，并纠正不一致的数据。 4.1空值检测处理缺失值作为预处理阶段的一部分，是数据挖掘中最重要的方面之一。没有一个清晰的数据集，得到有效的结果是非常困难甚至是不可能的。为了建立一个近乎完美的数据集，我们使用一系列技术来填充缺失值。我们开始使用包VIM里面的aggr()函数来探索数据集(Lang et al., 。这个软件包对R语言的缺失值或者估算值的可视化引入了新的工具，可用于探索数据和