基于决策树上市公司信用风险模型实证研究.docVIP

下载本文档

1
0
约5.14千字
约 11页
2018-06-01 发布于福建
举报
版权申诉

基于决策树上市公司信用风险模型实证研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于决策树上市公司信用风险模型实证研究

基于决策树上市公司信用风险模型实证研究　　随着我国证券市场机制和企业破产制度的完善，信用风险问题日益突出，不但使企业遭受巨大损失，而且直接影响企业的生存和发展；此外，大量上市公司存在信用风险时，将有可能引发金融危机。因此，对上市公司信用风险的管理是非常必要和迫在眉睫的。而上市公司信用风险评估模型的建立是防范信用风险的重要手段，因此，研究上市公司信用风险评估这一课题，已经成为我国目前经济生活中亟待解决的一个重要问题。　　目前许多定量技术和支持工具、软件已付诸商业应用，继传统的比例分析之后，统计方法得到了广泛的应用，如判别分析和Logistic回归等。信用等级评估是通过对企业或个人的某些单一财务指标进行加权平均确定的。该方法的最大缺陷在于指标和加权值的确定带有很大的主观性，使得评估结果和实际状况有很大的出入。因此需要引入科学方法来确定有效评估指标，并建立准确的定量模型来解决信用等级评估的问题。近年来，信息技术得到了迅速发展，如数据挖掘技术等能从海量数据中智能发现有用的规则和知识，再加上我国上市公司信息披露制度的不断完善，使得我们的研究能够得到的数据资料也不断的增多，这些有利条件的出现使得我们对基于数据挖掘的上市公司信用风险评估模型的研究具有了数据基础和技术基础。　　一、模型简介　　（一）决策树算法决策树是对已知类别的数据样本进行归纳学习获得的树形结构，树内每个非叶节点代表对一个属性取值的测试，每个叶节点代表一个类别。决策树方法利用信息理论的信息增益选择具有最大信息量的属性来建立决策树的一个节点，再根据属性字段的不同取值来建立树的分枝，如此对每个分枝重复递归建立整个决策树。产生决策树的基本算法如下：　　输入：训练样本，各属性均取离散数值，可供归纳的备选属性集合为attribute_list。　　输出：决策树　　算法：Gen_decision_tree 　　创建一个节点 Node；　　IF 该节点中的所有样本均为同一类别c THEN返回Node 作为一个叶节点并标志为类别c；　　IF attribute_list 为空 THEN返回Node作为一个叶节点并标记为该节点所含样本中类别个数最多的类别；　　从attribute_list 选择一个信息增益最大的属性 test_attribute；　　将节点Node标记为 test_attribute；　　根据test_attribute=Vi条件，从节点Node产生相应的一个分枝，且设Si为根据该分枝条件所获得的样本集合；　　IF Si 为空 THEN将相应叶节点标志为该节点所含样本中类别个数最多的类别，ELSE，将相应叶节点标志为由Gen_decision_tree（Si，attribute_list， test_attribute）返回的值。　　其中，信息增益的计算方法为：设S为一个包含S个数据样本的集合，类别属性可以取 N个不同的值，对应于N个不同的类别Cj，j∈{1，2，3，…，N}，Sj为类别Cj中的样本个数。那么对一个给定数据对象进行分类所需的信息量为：　　Infor（S1，S2，…SN）=-■pj log2（pj）（1）　　其中，pj是任意一个数据对象属于类别Cj的概率，即pj=Sj /S。设属性V取v个不同的值｛V1，V2…，Vv｝，则利用属性V可以将集合S划分为v个子集｛S1，S2…，Sv｝，其中Si包含了集合S中属性V取Vi值的那些样本。设Sij为子集Si中属于Cj类别的样本个数。那么利用属性V划分当前样本集合所需要的信息熵可以计算如下　　Entr（V）=■■Infor（S1，S2，…SN）（2）　　Infor（Si1，Si2，…SiN）=-■pijlog2（pij）（3）　　pij=■ （4）　　这样利用属性V对样本集合进行划分所获得的信息增益为：　　Cain（V）=Infor（S1，S2，…SN）-Entr（V）（5）　　（二）K最近邻法 K最近邻法简称KNN算法，在理论上是比较成熟的方法，最初于1968年由Cover 和Hart提出，其思路非常简单直观。KNN方法是一种有监督学习的分类算法，它并不需要产生额外的数据来描述规则，它的规则就是数据（样本）本身，并不要求数据的一致性问题，也就是说K最近邻法在一定程度上减小了噪声样本对分类的干扰。KNN根据未知样本的K个最近邻样本来预测未知样本的类别，K个最近邻样本的选择是根据一定的距离公式判定的。　　KNN分类算法的基本原理为：首先将待分类样本y表达成和训练样本库的样本一致的特征向量；然后根据距离函数计算待分类样本y和每个训练样本的距离，选择与待分类样本距离最小的K个样本作为y的K个最近邻；最后根据y的K个最近邻判断y