- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于组合分类器的信的用卡欺诈识别研究
基于组合分类器的信用卡欺诈识别研究
摘要随着我国信用卡发卡量和交易量的不断增长,信用卡交易中的欺诈交易也呈现出上升趋势。如何较早的识别欺诈交易,将成为金融业普遍关注的一个重要问题。本文提出了一种基于AdaBoost组合分类器的信用卡欺诈识别模型,并通过实证研究证明模型能较为准确的识别欺诈交易。 关键词欺诈识别;数据挖掘;机器学习;分类 1引言 随着世界经济的不断增长和信息技术的迅猛发展,全球的信用卡使用量持续上升,信用卡已成为支付领域的主要媒介。截至2004年底,美国的信用卡发行规模达到6.57亿张,平均每个家庭拥有6.3张信用卡。在零售业的所有客户支付工具中,借记卡和贷记卡的交易额已经超过了总交易额的50%,大有取代现金和个人支票交易的趋势。而我国从2003年开始,各大银行都把信用卡的发行作为业务重点,宣传战、产品战、地域战随处可见,信用卡规模急速扩大。发达国家的经验显示,随着发卡量的增大,信用卡的欺诈风险将直线上升,由于信用卡欺诈而给银行造成的损失也将居高不下。据Visa和MasterCard两大信用卡联盟的统计,全球信用卡欺诈涉及金额已超过100亿美元[1]。如何加强对信用卡欺诈的识别和防范,将成为银行风险控制的一个焦点。 对于处于“跑马圈地”阶段的我国银行业,能否未雨绸缪,及时的建立一套信用卡欺诈识别和防范体系,既是我国信用卡业务健康发展的重要保障,又是一项兼有前瞻性和现实性的有益探索。 2信用卡欺诈风险与欺诈识别模型研究 信用卡的欺诈风险是指持卡人由于遭人冒申请、盗领、伪造、失窃等原因而发生损失的风险。由于欺诈风险所造成的损失绝大部分都由发卡行承担,因此对信用卡欺诈的识别和防范是银行风险控制的一项重要内容。 从欺诈者在信用卡交易中的不同角色进行分类,信用卡欺诈可以分为商家欺诈、持卡人欺诈和第三方欺诈[2]。商家欺诈来源于合法商家的不法雇员或者与欺诈者勾结的不法商家。在现实中,商家雇员有条件接触到顾客的卡信息,甚至持卡离开顾客的视线,这都给不法雇员带来了复制或保留卡信息的机会。持卡人欺诈是由不道德的真实持卡人进行的,通常是持卡人充分利用信用卡的责任条款,在收到货物后称没有进行交易或者没有收到货物。第三方欺诈是目前信用卡欺诈的主要形式,是指不法分子非法获取他人信息,并利用这些信息伪造或骗领信用卡进行交易。由于非法获取信息的渠道较多,欺诈方式也不尽相同。 按照不同的欺诈手段,信用卡欺诈又可以分为身份盗窃欺诈、未达卡风险、遗失被窃风险、道德风险、欺诈犯罪风险五种[3]。 由于信用卡欺诈带来了巨大的风险和损失,因此银行一直在寻求一个行之有效的欺诈识别模型。最初是利用业务人员的经验知识对欺诈交易进行手动识别,但是随着信用卡发卡量的大幅增长和交易量的不断提高,信用卡欺诈愈演愈烈,且由于欺诈手法的不断翻新,业务人员很难迅速有效的从海量交易记录中觉察出欺诈交易。这时,需要有一个能对持卡者和信用卡交易进行快速判断的模型或系统来辅助业务人员的工作,而基于判别分析和回归分析的统计方法能通过给持卡者或信用卡交易进行信用评分的方式来识别欺诈交易,得到了广泛的应用。近年来,数据挖掘技术的兴起使人们开始关注基于数据挖掘技术的信用卡欺诈识别模型。利用数据挖掘中的分类方法,可以通过建立一个分类模型来准确的将欺诈交易和非欺诈交易区分开来,从而为欺诈防范和风险控制提供决策支持。人工神经网络[4][5][6]、决策树[7]等分类算法在欺诈识别上都进行了有益的尝试,取得了较好的预测效果。但是单一分类器的分类效能相对有限,不能得到一个很高的分类准确率,本文试图利用组合分类器来建立一个更为准确的信用卡欺诈识别模型。 3组合分类器与AdaBoost算法 实践中人们发现,分类算法实际上对样本集是敏感的,也就是说,在不同的训练样本和测试样本上,或者是在相同样本的不同特征空间上,同一分类器会有不同的表现。没有哪种分类算法是最优的,但是将多个分类器组合起来却能有效的提高分类的精度[8]。 所谓组合分类器是指几个分类器通过某种策略组合在一起对某个事例进行分类。组合的策略可以是模型组合,可以是不同的算法组合,也可以通过对样本取样,变化事例空间,构造不同的分类器,然后按照一定的加权方法对分类器进行组合,得到最后的分类器。组合分类器的应用,克服了单一分类器的诸多缺点,如对样本的敏感性,难以提高分类精度等等,在字符识别[9]、文本分类[10]、面部表情识别[11]等领域已经获得了较好的应用效果。 AdaBoost[12]是Boosting算法的一种,其主要思想是给每一个训练样本分配一个权重,表明它被某弱分类器选入训练集的概率,初始时权重设为1/m,m为样本个数。用一个弱分类算法在训练集上进行训练,训练后对样本权重进行调整,训练失败的样本权重增大,训练成功的样本权重减少,使分类算法能在
您可能关注的文档
- 基于GP算法的知识发的现系统.doc
- 基于HCI协议层的蓝训睦通用外接模块的研究开发.doc
- 基于Hibernate和Str的uts的J2EE应用开发研究.doc
- 基于HL7的电子病历降幕换模型的研究.doc
- 基于GPRS的车辆稽查的终端的设计与实现.doc
- 基于HMM的基因识别驳蘑行计算.doc
- 基于Hopfield神经网的络的噪声字母识别.doc
- 基于HTML标签的信息的隐藏模型.doc
- 基于IDEA算法的电子的邮件加密与解密的实现.doc
- 基于iDEN专网的现代的物流信息系统设计与功能实现.doc
- 数据仓库:Redshift:Redshift与BI工具集成.docx
- 数据仓库:Redshift:数据仓库原理与设计.docx
- 数据仓库:Snowflake:数据仓库成本控制与Snowflake定价策略.docx
- 大数据基础:大数据概述:大数据处理框架MapReduce.docx
- 实时计算:GoogleDataflow服务架构解析.docx
- 分布式存储系统:HDFS与MapReduce集成教程.docx
- 实时计算:Azure Stream Analytics:数据流窗口与聚合操作.docx
- 实时计算:Kafka Streams:Kafka Streams架构与原理.docx
- 实时计算:Kafka Streams:Kafka Streams连接器开发与使用.docx
- 数据仓库:BigQuery:BigQuery数据分区与索引优化.docx
文档评论(0)