2016108174301一种基于多源异构数据的用户信用评估模型.pdfVIP

2016108174301一种基于多源异构数据的用户信用评估模型.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号CN106408184A

(43)申请公布日2017.02.15

(21)申请号201610817430.1

(22)申请日2016.09.12

(71)申请人中山大学

地址510275广东省广州市新港西路135号

(72)发明人郑子彬杨亚涛黄春振

(74)专利代理机构广东广信君达律师事务所

44329

代理人杨晓松

(51)Int.Cl.

G06Q10/06(2012.01)

权利要求书2页说明书5页附图2页

(54)发明名称

一种基于多源异构数据的用户信用评估模

(57)摘要

本发明涉及一种基于多源异构数据的用户

信用评估模型,其包括以下步骤:(1)多源异构数

据的获取及合并;(2)用户特征的处理;(3)模型

的训练。本发明提出的模型框架在下面特征扩展

与选择中,先对用户的数据维度进行扩展,然后

再对有用的特征进行选择,从而减低特征的维

度,减低模型的时间复杂性;同时在特征处理中

对数据缺失与异常的情况进行处理,提供模型对

缺失值的鲁棒性。

A

4

8

1

8

0

4

6

0

1

N

C

CN106408184A权利要求书1/2页

1.一种基于多源异构数据的用户信用评估模型,其包括以下步骤:

(1)多源异构数据的获取及合并;

(2)用户特征的处理;

(3)模型的训练。

2.根据权利要求1所述的一种基于多源异构数据的用户信用评估模型,其特征在于所

述多源异构数据的获取包括:

采用爬虫技术,爬取网页中与用户相关的信息;

用户自提供,用户获得征信报告的前提是提供适量的个人基本信息;

用户授权第三方机构的数据的接入;

所述多源异构数据的合并包括:

对用户授权信息与用户提供数据进行邮箱号、手机号、身份证ID的任一匹配;

对网上爬取信息进行邮箱号、用户名、用户授权合并。

3.根据权利要求1所述的一种基于多源异构数据的用户信用评估模型,其特征在于用

户特征的处理包括缺失值异常性特征处理、类别特征离散编码、时序特征深度挖掘、获取统

计性特征。

4.根据权利要求1所述的一种基于多源异构数据的用户信用评估模型,其特征在于所

述模型的训练包括线性模型训练、决策树模型训练。

5.根据权利要求1所述的一种基于多源异构数据的用户信用评估模型,其特征在于所

述多源异构数据包括用户的基本信息、学业信息、支付信息、社交网络信息、操作信息、网络

行为信息。

6.根据权利要求3所述的一种基于多源异构数据的用户信用评估模型,其特征在于所

述缺失值异常性特征处理具体包括:

a.缺失率在20%以下的进行特征填充,对于数值型特征,填充均值,对于类别型特征填

充众数;

b.缺失率在97%以上进行丢弃处理和离散编码转换,丢弃处理是去掉缺失占有率超过

97%的特征,而缺失率很多的情况下,对这些特征进行离散编码;

c.缺失值统计矩阵:将用户特征矩阵,缺失的置为1,不缺失的置为0。

7.根据权利要求3所述的一种基于多源异构数据的用户信用评估模型,其特征在于所

述类别特征离散编码具体包括:将一个可能的取值有N种情况的特征,将其编码为N个二元

特征,这些特征互斥,每次都只有一个激活,使数据变得稀疏。

8.根据权利要求3所述的一种基于多源异构数据的用户信用评估模型,其特征在于所

述时序特征深度挖掘具体包括:

1、对相邻时期进行相减处理,表示不同时期或间段的差值变换;

2、对相邻时期相除处理,表示不同时期或间段的环比/斜率变换;

3、进行累积处理,表示和值变化。

9

您可能关注的文档

文档评论(0)

修齐 + 关注
实名认证
文档贡献者

知识产权师持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年05月15日上传了知识产权师

1亿VIP精品文档

相关文档