量化派基于HadoopSparkStorm的大数据风控架构..docxVIP

下载本文档

10
0
约5.24千字
约 6页
2017-01-29 发布于重庆
举报
版权申诉

量化派基于HadoopSparkStorm的大数据风控架构..docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

量化派基于HadoopSparkStorm的大数据风控架构.

量化派是一家金融大数据公司，为金融机构提供数据服务和技术支持，也通过旗下产品“信用钱包”帮助个人用户展示经济财务等状况，撮合金融机构为用户提供最优质的贷款服务。金融的本质是风险和流动性，但是目前中国对于个人方面的征信行业发展落后于欧美国家，个人消费金融的需求没有得到很好的满足。按照央行最新数据，目前央行征信中心的数据覆盖人口达到8亿人[1]，但其中有实际征信记录的只有3亿人左右，有5亿人在征信系统中只是一个身份证号码。此外，我国还有5亿人跟银行从来没有信贷交易关系，这5亿人对金融部门来说是陌生人。这样算下来，有征信记录的人只占到全国人口数的23.7%，远低于美国征信体系对人口的85%的覆盖率。如何在信用记录缺失的情况下，做好多个人用户的风险定价，是个棘手的难题。量化派通过基于机器学习和互联网化的风险定价，整合互联网及传统数据源，对个人在消费金融应用场景里的信用风险进行评估。这篇文章就主要介绍一下量化派的大数据平台，以及机器学习在量化派的应用。一、互联网化的风控创新量化派及“信用钱包”的核心任务是让用户可以凭借其良好的信用，而无需抵押或者担保就可以贷款。也就是说，用户仅凭信用即可开启财富之门。为了达到这个目的，信用钱包需要把用户个性化的需求与信贷产品信息精准匹配到一起。在帮助用户找到合适自己的信贷产品的同时，也帮助信贷产品公司找到了最合适的贷款用户，从而实现信贷消费者和信贷产品提供者的双赢。为了确保贷款的高成功率，为了更好的掌握用户需求以及对个人进行信用评级，我们需要大数据平台的支持。?目前，可以接入央行征信中心的金融机构仅仅只有银行、持牌照的第三方征信服务商以及部分地区的小贷公司，绝大多数的P2P平台还无法接入央行的征信数据，这无疑加大了P2P平台的风控难度。在征信思路上，传统征信是用昨天的信用记录来判断今天的信用价值，这未见得就是最合理的。在征信技术上，传统的方法是从线下采集信用数据，效率比较低。可以说，传统的线下征信技术限制了数据来源和信用评估思路，而互联网的技术、工具和思维则具备了改变这一切的可能性。回归到征信的本质，其实就在于解决两方面问题：信用能力和信用意愿，换而言之，即解决个人的还款能力和还款意愿，再追根溯源一点，即解决坏账和逾期两个问题[2]。量化派公司基于大数据的用户征信和传统征信殊途同归，所不同的是，传统征信中，数据依赖于银行信贷数据，而大数据征信的数据并不仅仅包括传统的信贷数据，同时也包括了与消费者还款能力、还款意愿相关的一些描述性风险特征，这些相关性描述风险特征的抽取与筛选是量化派的技术核心。相比于传统征信数据的强相关性，这些大数据征信的数据与消费者的信用状况相关性较弱，量化派就利用大数据技术，通过用户授权等方法搜集了更多的数据维度来加强这些弱相关数据的描述能力。这样就使大数据征信不依赖于传统信贷数据，就可以对传统征信无法服务的人群进行征信，实现对整个消费者人群的覆盖[3]。我们的数据来源如下图所示：???图一?量化派的数据来源?二、量化派的大数据平台架构量化派的信用钱包每天都会获取大量的用户的注册信息等结构化数据以及爬虫抓取的非结构化数据，还有第三方的接入数据，系统运行产生的日志数据等等，数据的形式多种多样，如何保护好、利用好这些数据，是公司重中之重的任务。量化派的业务也决定了公司是数据驱动型的。为了更好的满足公司日益增长变化的业务，在大数据平台建设中全面拥抱开源的基础上，进行了不停迭代设计，对数据平台中采用的开源软件进行了深度应用开发，同时还开发了很多契合业务需求的工具软件，很好的支撑我们去实现普惠金融的理想。量化派公司的数据平台架构如图二所示。??图二?量化派的数据平台架构相比我国的网民数量，信贷用户只占其中的一小部分，所以我司产品的用户基数并不是非常大，但是，为了给信贷用户更准确的信用评级，对于每个信贷用户我们都会从多个渠道获取大量的有效数据，这些数据聚合起来也是海量数据规模。公司发展伊始，几乎将所有的数据都存放在Mysql关系数据库中，工程师使用标准SQL语句来存储或者调用数据资源。Mysql很快就遇到了性能瓶颈，虽然可以通过不停地优化整个Mysql集群以应对数据的快速增长，但是面对复杂的数据业务需求，Mysql显然无法提供最优的解决方案。所以我司最终决定将数据迁移到大数据平台上，Mysql仅用来存储需要经常变化的状态类数据。除了系统运行日志直接存放在HDFS之中，大量的数据利用HBase来进行管理。HBase中的数据按照不同的数据源存放在不同的表中，每张表按照业务和存储需求对rowkey进行精心设计，确保海量数据中查询所需数据毫秒级返回。根据业务的不同特点，对于常规的数据ETL处理，我们使用MapReduce[4]框架来完成；BI和数据挖掘这些工作都放到了Spark[5]上。这样一来，依赖不同