《大数据架构与设计》课程报告讲解-金融贷款中企业多指标信用评估.pptxVIP

《大数据架构与设计》课程报告讲解-金融贷款中企业多指标信用评估.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

金融贷款中企业多指标信用评估大数据架构与技术

CONTENTS目录案例介绍PART01数据处理PART02算法评估PART03案例总结PART04大数据架构与技术

贷款决策问题企业A借贷需求:700万借贷企业B借贷需求:600万企业C借贷需求:900万企业D借贷需求:500万银行现金流:1000万大数据导论·案例介绍 数据处理 算法评估 案例总结

信贷政策企业的交易票据信息上下游企业的影响力评估指标实力强供求关系稳定信誉高信贷风险小选择标准过去通常采用人工主观意识影响大灰色手段层出不穷有失公正评判方法大数据导论·案例介绍 数据处理 算法评估 案例总结

信贷记录信誉评级企业发票数据库通过一定的算法设计综合各个指标处理数据集从而给企业评级弥补人工评估的缺陷大数据导论大数据方法·案例介绍 数据处理 算法评估 案例总结

有信贷记录的123家企业的210,948条进项发票数据和162,485条销项发票数据,以及信用评级无信贷记录的302家企业的330,836条进项发票数据和395,076条销项发票记录大数据导论数据集的获取与介绍·案例介绍 数据处理 算法评估 案例总结

大数据导论通过挖掘给定的企业发票流水,可以得到以下的指标:数据集的获取与介绍?·案例介绍 数据处理 算法评估 案例总结

大数据导论对极大型和极小型指标进行标准化,以极大型为例,有:数据集的获取与介绍数据标准化:?对以“是否”判断的指标,以1为是,0为否。·案例介绍 数据处理 算法评估 案例总结

数据标准化运行结果?大数据架构与技术·案例介绍 数据处理 算法评估 案例总结

各指标分析左上角增长率数据并没有显著差异,可见银行对其信誉评级基本不看增长率数据右下角有无银行违约记录是个很强的指标,表明银行A级必定无记录,D级必定有记录,B、C级则不一定累计资产/进出单数等存量指标是银行比较看重的指标大数据架构与技术·案例介绍 数据处理 算法评估 案例总结

单机采用决策树算法 运行了5.5小时运行时间分析集成环境采用随机森林算法 运行了2.5小时算法评估大数据架构与技术·案例介绍 数据处理 算法评估 案例总结

采用决策树算法 92家企业与人工评判相同 正确率74.8%集成环境采用随机森林算法 101家企业与人工评判相同 正确率达到82.1%正确率分析算法评估大数据架构与技术·案例介绍 数据处理 算法评估 案例总结

观察发现,决策树错误且随机森林正确的部分,决策树似乎更加“宽容”,猜测这是那部分训练集的单独特点决策树选用留出法,对选用的数据集求各级别企业指标平均值,发现的确比总的偏高,决策树习得了训练集的特点,出现了过拟合问题正确率分析算法评估过拟合问题大数据架构与技术·案例介绍 数据处理 算法评估 案例总结

项目总结数据预处理pandasdataframe是表格形数据结构,在数据量不大时有较好的效果而在大数据的处理中,Spark也有类似的api,其DataFrame是基于RDD的一种数据类型,具有比RDD节省空间和更高运算效率的优点由于本次项目采用的数据集源格式为xlsx且有多个sheet,于是采用了使用pandas读取数据,再将pandasDataFrame转为Spark的DataFrame的办法(二者可以互转),最后结果写入到新的csv文件中,避免再次出现类似问题。大数据架构与技术·案例介绍 数据处理 算法评估 案例总结

项目总结随机森林算法对比决策树,随机森林能更好地解决过拟合问题,拥有更好的泛化性能然而,无论随机森林还是决策树,最后的正确率也不超过85%,可能是C4.5对连续值采取的二分法还不够准确。后续还可以通过其他分类算法如聚类等计算,综合考虑使得正确率可以更高最后,考虑到原始数据集包含的大量发票信息,需要人工总结属性,并提出计算公式。是否可以使用机器学习算法习得这些属性。大数据架构与技术·案例介绍 数据处理 算法评估 案例总结

谢谢观看大数据架构与技术

文档评论(0)

浙江工程信息通 + 关注
实名认证
服务提供商

网络工程师持证人

本人已从事浙江省工程咨询5年,对浙江省内工程信息非常熟悉,可获取新建工程相关联系人、设计院、业主等关键信息。另外从事楼宇自控专业已10年,考取了一建二建等资格证书,有关考试方面的问题(考试心得、方法、学习资料等)都欢饮来咨询交流。

领域认证该用户于2023年05月11日上传了网络工程师

1亿VIP精品文档

相关文档