- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[风控算法大赛解决方案 ]
by 陈靖 朱治亮 周耀 赵蕊 黄伟鹏
一、解决方案概述 3
二、数据清洗 3
三、特征工程 6
四、特征选择 10
五、类别不平衡的处理 11
六、模型设计与分析 12
一 、解决方案概述
1.1 项目介绍与问题分析
拍拍贷“魔镜风控系统”从平均 400 个数据维度评估用户当前的信用状态,给每个借款
人打出当前状态的信用分,在此基础上再结合新发标的信息,打出对于每个标的 6 个月内逾
期率的预测,为投资人供关键的决策依据。本次竞赛目标是根据用户历史行为数据来预测
用户在未来6个月内是否会逾期还款的概率。
问题转换成2 分类问题,评估指标为AUC ,从Master ,LogInfo ,UpdateInfo 表中构建 特
征,考虑评估指标为 AUC ,其本质是排序优化问题,所以我们在模型顶层融合也使用基于
排序优化的RANK_AVG融合方法。
1.2 项目总体思路
本文首先从数据清洗 开始,介绍我们对缺失值的多维度处理、对离群点的剔除方法以
及 对字符、空格等的处理;其次进行特征工程 ,包括对地理位置信息的特征构建、成交时
间特 征、类别特征编码、组合特征构建、UpdateInfo 和 LogInfo 表的特征取等;再次进
行特 征选择 ,我们采用了xgboost ,xgboost 的训练过程即对特征重要性的排序过程;然后
处理 类别的不平衡度 ,由于赛题数据出现了类别不平衡的情况,我们采用了代价敏感学习
和过采 样两种方法,重点介绍我们所使用的过采样方法;最后一部分是模型设计与分析 ,
我们采用 了工业界广泛应用的逻辑回归模型、数据挖掘比赛大杀器 xgboost ,创新性
地探索了 large-scale svm 的方法在本赛题上的应用,取得了不错的效果,此外还介绍了模型
融合方 法。
二 、数据清洗
2.1 缺失值的多维度处理
在征信领域,用户信息的完善程度可能会影响该用户的信用评级。一个信息完善程度为
100%的用户比起完善程度为 50% 的用户,会更加容易审核通过并得到借款。从这一点出发,
我们对缺失值进行了多维度的分析和处理:
按列(属性)统计 缺失值个数,进一步得到各列的缺失比率,下图(图 1)显示了含
有 缺失值的属性和相应的缺失比率:
图 1.属性缺失比率
WeblogInfo_1 和 WeblogInfo_3 的缺失值比率为 97% ,这两列属性基本不携带有用的信
息,直接剔除。UserInfo_11 、UserInfo_12 和 UserInfo_13 的缺失值比率为 63%,这三列属 性
是类别型的,可以将缺失值用-1 填充,相当于“是否缺失”当成另一种类别。其他缺失 值比
率较小的数值型属性则用中值填充。
按行统计 每个样本的属性缺失值个数,将缺失值个数从小到大排序,以序号为横坐标,
缺失值个数为纵坐标,画出如下散点图(图2 ):
图2.样本属性缺失个数
对比 trainset 和 testset 上的样本的属性缺失值个数,可以发现其分布基本一致,但是
trainset 上出现了几个缺失值个数特别多的样本(红框区域内),这几个样本可以认为是 离
群点,将其剔除。
另外,缺失值个数可以作为一个特征,衡量用户信息的完善程度。
2.2 剔除常变量
原始数据中有 190维数值型特征,通过计算每个数值型特征的标准差,剔除部分变化很
小的特征,下表(表1)列出的15个特征是标准差接近于0 的,我们剔除了这15维特征。
表 1.剔除数值特征标准差
属性 标准差 属性 标准差 属性 标准差
WeblogInfo_10 0.0707 WeblogInfo_41 0.0212 WeblogInfo_49 0.0071
WeblogInfo_23 0.0939 WeblogInfo_43 0.0372 WeblogInfo_52 0.0512
WeblogInfo_31 0.0828 W
文档评论(0)