金融风控大赛解决方案.pdfVIP

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[风控算法大赛解决方案 ] by 陈靖 朱治亮 周耀 赵蕊 黄伟鹏 一、解决方案概述 3 二、数据清洗 3 三、特征工程 6 四、特征选择 10 五、类别不平衡的处理 11 六、模型设计与分析 12 一 、解决方案概述 1.1 项目介绍与问题分析 拍拍贷“魔镜风控系统”从平均 400 个数据维度评估用户当前的信用状态,给每个借款 人打出当前状态的信用分,在此基础上再结合新发标的信息,打出对于每个标的 6 个月内逾 期率的预测,为投资人供关键的决策依据。本次竞赛目标是根据用户历史行为数据来预测 用户在未来6个月内是否会逾期还款的概率。 问题转换成2 分类问题,评估指标为AUC ,从Master ,LogInfo ,UpdateInfo 表中构建 特 征,考虑评估指标为 AUC ,其本质是排序优化问题,所以我们在模型顶层融合也使用基于 排序优化的RANK_AVG融合方法。 1.2 项目总体思路 本文首先从数据清洗 开始,介绍我们对缺失值的多维度处理、对离群点的剔除方法以 及 对字符、空格等的处理;其次进行特征工程 ,包括对地理位置信息的特征构建、成交时 间特 征、类别特征编码、组合特征构建、UpdateInfo 和 LogInfo 表的特征取等;再次进 行特 征选择 ,我们采用了xgboost ,xgboost 的训练过程即对特征重要性的排序过程;然后 处理 类别的不平衡度 ,由于赛题数据出现了类别不平衡的情况,我们采用了代价敏感学习 和过采 样两种方法,重点介绍我们所使用的过采样方法;最后一部分是模型设计与分析 , 我们采用 了工业界广泛应用的逻辑回归模型、数据挖掘比赛大杀器 xgboost ,创新性 地探索了 large-scale svm 的方法在本赛题上的应用,取得了不错的效果,此外还介绍了模型 融合方 法。 二 、数据清洗 2.1 缺失值的多维度处理 在征信领域,用户信息的完善程度可能会影响该用户的信用评级。一个信息完善程度为 100%的用户比起完善程度为 50% 的用户,会更加容易审核通过并得到借款。从这一点出发, 我们对缺失值进行了多维度的分析和处理: 按列(属性)统计 缺失值个数,进一步得到各列的缺失比率,下图(图 1)显示了含 有 缺失值的属性和相应的缺失比率: 图 1.属性缺失比率 WeblogInfo_1 和 WeblogInfo_3 的缺失值比率为 97% ,这两列属性基本不携带有用的信 息,直接剔除。UserInfo_11 、UserInfo_12 和 UserInfo_13 的缺失值比率为 63%,这三列属 性 是类别型的,可以将缺失值用-1 填充,相当于“是否缺失”当成另一种类别。其他缺失 值比 率较小的数值型属性则用中值填充。 按行统计 每个样本的属性缺失值个数,将缺失值个数从小到大排序,以序号为横坐标, 缺失值个数为纵坐标,画出如下散点图(图2 ): 图2.样本属性缺失个数 对比 trainset 和 testset 上的样本的属性缺失值个数,可以发现其分布基本一致,但是 trainset 上出现了几个缺失值个数特别多的样本(红框区域内),这几个样本可以认为是 离 群点,将其剔除。 另外,缺失值个数可以作为一个特征,衡量用户信息的完善程度。 2.2 剔除常变量 原始数据中有 190维数值型特征,通过计算每个数值型特征的标准差,剔除部分变化很 小的特征,下表(表1)列出的15个特征是标准差接近于0 的,我们剔除了这15维特征。 表 1.剔除数值特征标准差 属性 标准差 属性 标准差 属性 标准差 WeblogInfo_10 0.0707 WeblogInfo_41 0.0212 WeblogInfo_49 0.0071 WeblogInfo_23 0.0939 WeblogInfo_43 0.0372 WeblogInfo_52 0.0512 WeblogInfo_31 0.0828 W

文档评论(0)

hhx0627 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档