特征工程-拍拍贷AI开发平台.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
特征工程-拍拍贷AI开发平台

“魔镜杯”风控算法大赛模型说明文档 全民狙击团队 路丹晖 2016 年4 月 18 日 目录 “魔镜杯”风控算法大赛模型说明文档 1 1. 赛题分析 3 1.1. 比赛数据 3 1.2 数据注意事项及挑战 3 2. 模型设计 4 3. 特征工程 5 4. 模型训练与评估 17 4.1 样本设计 17 4.2 模型训练 18 4.3 模型融合 18 4.4 模型验证 21 5. 心得与体会22 1. 赛题分析 拍拍贷 “魔镜杯”风控算法大赛开放真实的借贷历史数据 ,选手需要通过对 标的中借款申请人的申请信息、行为记录、第三方征信等数据进行分析,预测标 的 6 个月内的逾期率,从而有效的评估借款人借贷违约风险 ,为授信、风险定价 等决策提供依据。 1.1. 比赛数据 比赛提供的数据 ,其维度主要包括三个部分 : 1) 标的借款人的各项数据:用户基本信息、网络行为、学历信息、第三方数据、 社交网络数据(总共 226 个字段); 2) 借款人登录及操作记录(包括操作时间、操作类别和操作代码); 3) 借款人修改信息的记录 (包括修改时间和修改内容)。 复赛的训练数据 79,999 条 ,测试数据10,000 条。其中 ,训练数据中包括 了标的的违约标签(1=贷款违约 ,0=正常还款)。 1.2 数据注意事项及挑战 赛题及数据的基本分析及注意事项包括: 1) 开放的数据字段经过脱敏处理(除借款人修改信息外),对于数据的理解及特 征构造存在一定的难度,但依然有一定的空间 ; 2) 由于题目数据是拍拍贷真实的标的数据,因此推测这些标的本身是通过了当 时的拍拍贷风控审核的,所以在构造特征及筛选特征时,需要充分考虑到标 的的借款人实际已经通过风控审批,并不是真实的借款申请样本(灰度样本), 对于变量及其解释性的评估造成一定挑战 ; 3) 比赛数据中并无明显重复借贷数据线索。考虑到网贷客户重复借贷率高的特 点,通过比对借款人登录操作及修改信息记录以及包括地理位置等一些用户 基本信息的分析,并未发现同一用户存在明显的不同标的,因此考虑比赛数 据中已先期去除重复借贷的标的。 2. 模型设计 比赛要求通过历史数据预测标的 6 个月内是否逾期 ,因此这是一个非常典 型的二分类的预测问题。在初赛中,在对给定 29,999 条训练数据进行初步的清 洗后(分类变量 encoding/one-hot encoding ,缺失值填充),我们利用主流 的分类模型尝试 quick model 以确定选型 ,模型效果如表 1 : 表 1 Quick model 试验确定模型选择 Model 2-fold CV AUC logistic regression 0.6832 random forest 0.7011 gbdt 0.7354 svm w/ pca 0.6951 xgboost 0.7467 通过试验发现 Xgboost 和 GBDT 的 quick model 效果相对其他方法更优, 且根据以往经验,xgboost 在剪枝、正则化、generalization 方面较传统 gbdt 有非常明显的提升 ,尤其是算法实现优化后的运行速度提升极为明显,对于模型 开发,算法迭代有非常显著的帮助,所以在我们在比赛初期便选择 Xgboost 为 主要模型训练方法。 因为接下来的数据清洗和特征工程,很大程度上依赖于模型自身的特点,由 于 Xgboost 基于 Boosted Tree 实现 ,因此在构

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档