基于稀疏贝叶斯学习的个人信用评估.docVIP

下载本文档

21
0
约3.31千字
约 6页
2016-11-23 发布于北京
举报
版权申诉

基于稀疏贝叶斯学习的个人信用评估.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于稀疏贝叶斯学习的个人信用评估.doc

基于稀疏贝叶斯学习的个人信用评估　　摘要：　　针对传统信用评估方法分类精度低、特征可解释性差等问题，提出了一种使用稀疏贝叶斯学习方法来进行个人信用评估的模型（SBLCredit）。SBLCredit充分利用稀疏贝叶斯学习的优势，在添加的特征权重的先验知识的情况下进行求解，使得特征权重尽量稀疏，以此实现个人信用评估和特征选择。在德国和澳大利亚真实信用数据集上，SBLCredit方法的分类精度比传统的K近邻、朴素贝叶斯、决策树和支持向量机平均提高了4.52%，6.40%，6.26%和2.27%。实验结果表明，SBLCredit分类精度高，选择的特征少，是一种有效的个人信用评估方法。　　关键词：　　稀疏贝叶斯学习；分类；信用评估；金融风险；特征选择　　0引言　　信用评估是商业银行控制风险的关键技术，发生在美国的“次贷危机”就是信用风险的大爆发，因此信用评估方法的研究具有非常重要的现实意义。信用评估实质上是数据挖掘中的分类问题——将贷款者根据其属性分成能够按期还本付息的可信的“好”客户（正类）和违约的“坏”客户（负类）两类，进而预测未来贷款人的违约风险，为消费信贷决策提供科学依据。　　由于信用评估的重要性，它已成为近年来的研究热点，信用评估的方法主要有决策树[1]、朴素贝叶斯（Nave Bayes）[2]、K近邻（KNearest Neighbour， KNN）[3]、支持向量机（Support Vector Machine， SVM）[4-6]、自然计算[7-8]及这些方法的集成[9-11]等。但已有方法大多存在分类精度低，不能有效进行特征选择以致模型可解释性差[8]等问题。本文将最近几年在信号处理、模式识别中的研究热点——“稀疏学习”引入到信用评估中，提出了一种基于稀疏贝叶斯学习（Sparse Bayesian Learning， SBL）的个人信用评估模型（Sparse Bayesian Learningbased Credit， SBLCredit）。SBLCredit模型首先添加各属性的权重先验知识，然后在该先验知识约束下求解属性权重，以此建立信用评估模型；对于一个待分类样本，先计算各权重与属性值乘积的累加和，然后将得到的值映射到正、负类。据作者所知，这是首次将稀疏学习方法应用到信用评估上。在取自德国和澳大利亚的真实信用数据集上做了实验，结果表明，相对于传统的KNN、Nave Bayes、决策树和SVM分类方法，SBLCredit算法具有更高的分类精度且选出的特征更稀疏。　　1稀疏贝叶斯学习框架　　稀疏学习是近年的研究热点，在信号处理、模式识别和机器学习等领域得到了广泛研究，而稀疏贝叶斯学习框架是一种典型的稀疏学习方法，相对于传统的基于L1惩罚项稀疏学习方法（比如Lasso、Basis Pursuit），SBL具有明显的优势[12-13]：1）在无噪声情况下，除非满足特定的条件，L1算法的最优解并不是真正的最稀疏解。因此，当真实解是最稀疏解的应用场合，SBL是最佳选择。2）当感知矩阵的列与列之间相关性很强时，L1算法的性能非常差。但在这种情况下，SBL仍然能获得良好的解。3）已经有研究表明，SBL等价于一种迭代加权L1最小化算法，L1算法仅仅是其第一步，因此，SBL完全可以获得比L1更优的稀疏解。　　稀疏学习/压缩感知的一般模型可描述为：　　其中：D为N×M的感知矩阵，y为N×1维压缩信号，x为M维待求解向量，v是噪声。为了得到稀疏的x，SBL假设x中的每个元素都服从一个参数化的均值为0，方差为γi的高斯分布：　　p（xi；γi）=N（0，γi）；i=1，2，…，M（2）　　其中：xi是x中的第i个元素，γi是未知参数，其值将由算法自动估计出来。在算法的运行过程中，部分γi变成0或趋于0，SBL通常将小于某个阈值的γi置为0，此时对应的xi也为0，以此达到稀疏的效果。在有噪声的情况下，通常假设v为方差为λ的高斯白噪声向量，即：　　p（v；λ）=N（0，λI）（3 　　根据贝叶斯规则很容易获得噪声的后验分布，也为一高斯分布。当所有的未知参数γi和λ都被估计出来后，x的最大后验估计由这个高斯分布的均值给出，而这些未知参数由第二类最大似然估计[12]获得。　　2基于稀疏贝叶斯学习的个人信用评估　　SBL本身的模型就是一个稀疏线性回归模型，在求得式（1）中的解向量（回归系数）x后，对于一个测试样本T，可以计算其观测值（自变量或属性值）A=[a1，a2，…，aM]与压缩信号（因变量）r之间关系的表达式，如式（4）：　　r=Ax=∑Mi=1aixi（4）　　其中：ai是测试样本的第i个属性值；r是一个实数，为了将SBL用于分类问题，必须将其映射为类标签，在本文，分别