- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于套索的小微企业贷款审批.doc
基于套索的小微企业贷款审批
[提要] 小微企业是民生银行三大核心客户群体之一,根据民生银行天津分行商贷通申请材料,整理出24个指标。以授信额度为因变量,其他变量为自变量。采用最小角回归、广义线性模型弹性网和分组group lasso三种方法计算。结果发现lasso变量选择功能最强,弹性网次之,而分组group lasso较弱。综合几种方法结果,企业从事行业对于银行贷款授信额度影响最大,一般建筑、交通运输设备容易获得贷款,而从事金属、日用品的企业较难获得更多贷款。
关键词:小微金融;lasso;最小角回归
中图分类号:F83 文献标识码:A
收录日期:2013年4月20日
小微企业贷款是民生银行的重要特色之一,截至2011年末,中国民生银行的小微企业贷款余额已经超过2,300亿元人民币(约合360亿美元),不良贷款率只有千分之一点五左右,民生银行已经成为全球最大的小微企业金融服务提供商。小微企业客户具有户数众多、客户分散等特征。在中国银行业,小微企业贷款一直被认为是“高信用风险、高人工成本”的业务,20世纪八十年代中国各大国有银行都有过给小商户贷款遭遇巨额不良贷款的惨痛经历。如何筛选优质可靠小微企业,降低信用风险是进军小微企业贷款领域首先需要思考的问题。本文结合天津民生支行实际情况,从贷款小微企业申请表格中整理出一套指标体系,利用lasso筛选出重要影响指标,方便操作,对于风险评估、确定授信额度等提供借鉴和帮助。
一、小微企业贷款分析指标
小微企业客户具有户数众多,客户分散等特征。“商贷通”目标市场选择的基本原则在于运用“大数法则”测算出特定行业的风险概率,甄选“商贷通”业务进入的行业,迅速地找到有效客户群体,并对其进行批量营销。
最后整理指标体系包括24个指标,有姓名、性别、年龄、婚姻状况、有无子女、最高学历、已有额度、我行余额、资产合计、负债余额、月供支出、信用记录、从事行业I、从事行业II、从业年限、经营模式、员工人数、年经营收入、半年流水、年利润、公司信用、行业利润额、担保方式、授信额度。其中,一类行业:批发和零售业,制造业,住宿和餐饮业,交通运输、仓储邮政业,信息传输、计算机服务和软件业,租赁和商务服务业,居民服务和其他服务业,建筑业,房地产业,教育,文化、体育、娱乐业,其他。二类行业:食品,饮料,烟草,纺织,服装,日用品,文化体育用品,器材,医药、医疗设备,家具,建材,工艺品,五金交电,机械设备,通信设备、计算机、电子,皮革毛皮,造纸,塑料,橡胶,非金属,金属,金属制品,交通运输设备,化学制品,仪器仪表,专用设备,通用设备,废弃资源和废旧材料回收加工业,代理。
指标体系中有数值型和分类指标,数值型指标可以直接分析,而分类指标需要编码之后才能分析。该指标体系按照申请人在民生贷款时所填表格整理得到,主要包括个人基本情况、家庭资产及负债状况和公司情况三个方面。由于指标太多,希望从中找出授信额度的最重要影响指标,方便以后贷款审批和分析。
二、lasso方法
所谓lasso,也有翻译成套索,其全称是least absolute shrinkage and selection operator。最早提出lasso的是Tibshirani在1996年Journal of the Royal Statistical Society:Series B 上的一篇文章Regression shrinkage and selection via lasso。对于线性回归,在普通最小二乘的基础上加入L1范数惩罚。其想法是在限制了系数总和的情况下,求使得残差平方和达到最小的回归系数的估值。
min(y-xβ)
s.t.
β≤s
其中,y是第i个样本的输出值,总共N个样本。x是第i个样本的第j个输入变量,β是第j个输入变量,总共p个输入变量。
但是,lasso提出之后没有受到太多关注,直到2002年Efrn提出最小角回归之后,才变成热点。Tibshirani自己分析可能是如下原因:
(1)1996年提出的lasso算法相比于今天太慢;
(2)当时lasso算法是个“黑箱子”,没有显著的解释;
(3)稀疏性(sparsity)的重要性并没有被人们认识;
(4)海量数据问题较少;
(5)当时R语言没有流行,几年之后R语言可以轻松分享最新算法软件。
三、lasso分析结果
由于所选指标中有数值类型和分类变量,数值变量可以直接处理,分类变量回归之前需要编码。本文采用虚拟编码,涉及到性别、婚姻状况、有无子女、从事行业I、从事行业II、经营模式、公司信用、担保方式8个分类变量,编码之后总共38个变量,增加了15个变
文档评论(0)