信用卡数据欺诈行为检验中存在的问题及解决方法研究.pdf

下载文档 降价啦

63
0
约7.28万字
约 54页
2020-12-21 发布于江苏
举报
版权申诉
保障服务

信用卡数据欺诈行为检验中存在的问题及解决方法研究.pdf

1、本文档共54页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要摘要随着信用卡的推广和普及，越来越多的人享受到了提前消费以及无纸消费的快乐，给消费者和商家都提供了极大的方便。但是欺诈问题一直伴随着信用卡的诞生延续到现在，每年全球由于信用卡欺诈问题损失数十亿欧元。随之而来，金融机构迫切地需要一个性能良好的欺诈判别系统，希望能够代替传统的人工肉眼审核。然而，信用卡数据自带严重的数据不平衡性和数据流概念漂移，毕竟交易欺诈数据只占少数，且利用滞后数据训练得到的模型无法判别日新月异的欺诈行为。由于信用卡数据的严重类不平衡性和概念漂移，将会给欺诈预测带来不利的影响。本文分别提出以下两个方案：（1）融合聚类和整合的欠采样方法，创新出一种平衡两者优缺点的欠采样算法，保证多数类样本数据的多样性和丰富性；接着针对MAHAKIL 过采样算法在数据小析取项的问题，本文将该算法与聚类相融合，使得创新的算法不再具有上述缺点。最后本文会基于欠采样与过采样的混合采样方法解决数据不平衡问题。（2）提出用主动学习的方式减小数据流概念漂移带来的影响。主动学习效率的高低取决在于能否采用高效准确的采样策略。本文采用的是QUIRE 算法，该算法的目标就是能够筛选出具有代表性且不确定性较高的实例。最关键的是该算法对样本的分布和类边界比较敏感，因此即使数据集存在异常值的情况下，也能筛选出高效的样本实例。最后，我们使用真实的信用卡欺诈数据，对提出的两个方案进行大量的对比实验，检验模型是否具有优越性，并得到结论。关键词：数据不平衡，概念漂移，混合采样，主动学习，MAHAKIL 算法，QUIRE 算法 I 目录目录 1 绪论 1 1.1 研究的背景和意义 1 1.1.1 研究的背景 1 1.1.2 研究的意义2 1.2 国内外研究现状2 1.2.1 数据采样研究现状3 1.2.2 主动学习及采样策略研究现状4 1.3 论文的研究内容5 2 信用卡欺诈存在的问题和处理方法概述7 2.1 信用卡欺诈存在的问题7 2.1.1 类不平衡问题7 2.1.2 数据流概念漂移8 2.2 针对欺诈问题的方法概述 11 2.2.1 基于聚类的欠采样方法 11 2.2.2 基于整合的欠采样方法 13 2.2.3 MAHAKIL 过采样 14 2.2.4 混合采样 16 2.2.5 主动学习算法 17 2.2.6 随机森林算法 18 2.3 本章小结 19 3 针对数据不平衡问题的研究21 3.1 基于整合和聚类的欠采样方法21 3.2 基于改进的MAHAKIL 过采样方法22 3.3 混合采样24 3.4 实证研究25 3.4.1 数据集25 3.4.2 基础分类器26 3.4.3 评价指标26 3.4.4 实验过程及结果分析28 3.5 本章小结31 4 针对数据流漂移概念问题的研究33