- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
量化派基于Hadoop、Spark、Storm的大数据风控架构
量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品“信用钱包”帮助个人用户展示经济财务等状况,撮合金融机构为用户提供最优质的贷款服务。金融的本质是风险和流动性,但是目前中国对于个人方面的征信行业发展落后于欧美国家,个人消费金融的需求没有得到很好的满足。按照央行最新数据,目前央行征信中心的数据覆盖人口达到8亿人[1],但其中有实际征信记录的只有3亿人左右,有5亿人在征信系统中只是一个身份证号码。此外,我国还有5亿人跟银行从来没有信贷交易关系,这5亿人对金融部门来说是陌生人。这样算下来,有征信记录的人只占到全国人口数的23.7%,远低于美国征信体系对人口的85%的覆盖率。如何在信用记录缺失的情况下,做好多个人用户的风险定价,是个棘手的难题。量化派通过基于机器学习和互联网化的风险定价,整合互联网及传统数据源,对个人在消费金融应用场景里的信用风险进行评估。这篇文章就主要介绍一下量化派的大数据平台,以及机器学习在量化派的应用。
一、互联网化的风控创新
量化派及“信用钱包”的核心任务是让用户可以凭借其良好的信用,而无需抵押或者担保就可以贷款。也就是说,用户仅凭信用即可开启财富之门。为了达到这个目的,信用钱包需要把用户个性化的需求与信贷产品信息精准匹配到一起。在帮助用户找到合适自己的信贷产品的同时,也帮助信贷产品公司找到了最合适的贷款用户,从而实现信贷消费者和信贷产品提供者的双赢。为了确保贷款的高成功率,为了更好的掌握用户需求以及对个人进行信用评级,我们需要大数据平台的支持。?
目前,可以接入央行征信中心的金融机构仅仅只有银行、持牌照的第三方征信服务商以及部分地区的小贷公司,绝大多数的P2P平台还无法接入央行的征信数据,这无疑加大了P2P平台的风控难度。在征信思路上,传统征信是用昨天的信用记录来判断今天的信用价值,这未见得就是最合理的。在征信技术上,传统的方法是从线下采集信用数据,效率比较低。可以说,传统的线下征信技术限制了数据来源和信用评估思路,而互联网的技术、工具和思维则具备了改变这一切的可能性。回归到征信的本质,其实就在于解决两方面问题:信用能力和信用意愿,换而言之,即解决个人的还款能力和还款意愿,再追根溯源一点,即解决坏账和逾期两个问题[2]。量化派公司基于大数据的用户征信和传统征信殊途同归,所不同的是,传统征信中,数据依赖于银行信贷数据,而大数据征信的数据并不仅仅包括传统的信贷数据,同时也包括了与消费者还款能力、还款意愿相关的一些描述性风险特征,这些相关性描述风险特征的抽取与筛选是量化派的技术核心。相比于传统征信数据的强相关性,这些大数据征信的数据与消费者的信用状况相关性较弱,量化派就利用大数据技术,通过用户授权等方法搜集了更多的数据维度来加强这些弱相关数据的描述能力。这样就使大数据征信不依赖于传统信贷数据,就可以对传统征信无法服务的人群进行征信,实现对整个消费者人群的覆盖[3]。我们的数据来源如下图所示:?
?
?图一?量化派的数据来源?
二、量化派的大数据平台架构
量化派的信用钱包每天都会获取大量的用户的注册信息等结构化数据以及爬虫抓取的非结构化数据,还有第三方的接入数据,系统运行产生的日志数据等等,数据的形式多种多样,如何保护好、利用好这些数据,是公司重中之重的任务。量化派的业务也决定了公司是数据驱动型的。为了更好的满足公司日益增长变化的业务,在大数据平台建设中全面拥抱开源的基础上,进行了不停迭代设计,对数据平台中采用的开源软件进行了深度应用开发,同时还开发了很多契合业务需求的工具软件,很好的支撑我们去实现普惠金融的理想。量化派公司的数据平台架构如图二所示。
?
?图二?量化派的数据平台架构
相比我国的网民数量,信贷用户只占其中的一小部分,所以我司产品的用户基数并不是非常大,但是,为了给信贷用户更准确的信用评级,对于每个信贷用户我们都会从多个渠道获取大量的有效数据,这些数据聚合起来也是海量数据规模。公司发展伊始,几乎将所有的数据都存放在Mysql关系数据库中,工程师使用标准SQL语句来存储或者调用数据资源。Mysql很快就遇到了性能瓶颈,虽然可以通过不停地优化整个Mysql集群以应对数据的快速增长,但是面对复杂的数据业务需求,Mysql显然无法提供最优的解决方案。所以我司最终决定将数据迁移到大数据平台上,Mysql仅用来存储需要经常变化的状态类数据。除了系统运行日志直接存放在HDFS之中,大量的数据利用HBase来进行管理。HBase中的数据按照不同的数据源存放在不同的表中,每张表按照业务和存储需求对rowkey进行精心设计,确保海量数据中查询所需数据毫秒级返回。
根据业务的不同特点,对于常规的数据ETL处理,我们使用MapRed
您可能关注的文档
- “拍照赚钱”的任务定价论文.doc
- “友情主题的童话群文阅读”课例研究.doc
- 《基于学科核心素养的初中化学教学设计》论文.doc
- 《桂林塔山旅游3D项目虚拟展示--穿山园旅游养生休闲区II》论文.doc
- 《小学低年级写话教学指导策略的研究》结题报告.doc
- 《小学语文阅读课教学语言训练研究》课题阶段性小结.doc
- 70例静脉留置针患者临床应用与并发症的护理对策论文(范文).doc
- 2018法律硕士(非法学)研究生考试综合课真题与答案.docx
- A股市场借壳上市研究—以广弘控股借壳上市为例.doc
- LED路灯光学设计及优化技术的研究论文.doc
- 人事任命协议书的范本.docx
- 初中地理信息系统教学法的创新与实践教学研究课题报告.docx
- 高中政治跨文化政治教育设计与实施研究教学研究课题报告.docx
- 独特法律教学资源的构建与学生自主学习实践研究教学研究课题报告.docx
- 高中政治国家制度教学中宪法解读与政治体系比较探究教学研究课题报告.docx
- 中世纪欧洲的宗教改革与社会变革教学研究课题报告.docx
- 特殊家庭学生心理危机干预中的心理危机干预跨文化研究教学研究课题报告.docx
- 高中足球训练中预防运动损伤的战术训练探讨教学研究课题报告.docx
- 2025年淘宝天猫网络营销代运营托管服务协议合同6篇.docx
- 实习协议(定岗)8篇.docx
最近下载
- 党员领导干部2024年度民主生活会个人对照检查材料.docx VIP
- 新改版苏教版六年级下册科学全册知识点.doc
- 建设单位管理指南.ppt VIP
- 人力资源管理诊断告及建议.ppt
- 新闻采访与写作.ppt VIP
- 项目1 1.1 植物生产与环境概述(1)(课件)- 《植物生产与环境》(高教版第四版)同步精品课堂.pptx
- (人教2024版)英语七年级下册全册单元知识点讲解+思维导图(新教材).docx
- 2025年临床医师定期考核试题中医知识题库及答案(共300题).doc
- 学校校长2023年度生活会个人对照检查材料.doc VIP
- 2024-2025年度民主生活个人“四个带头”检查发言材料八篇.docx VIP
文档评论(0)