- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Anastasiia Izotova et al. / Procedia Computer Science 186 (2021) 721–726
PAGE 726 Anastasiia Izotova et al. / Procedia Computer Science 186 (2021) 721–726
泊松过程和机器学习算法在信用卡欺诈检测中的比较
摘要
本文描述了不平衡数据中的财务欺诈检测。我们比较了信用卡欺诈检测问题的各种方法。一方面,我们使用齐次和非齐次泊松过程来确定具有不同强度参数函数的预测欺诈的概率。另一方面,我们使用机器学习算法和不同的集成方法(如boostings)来解决分类问题。比较了两种方法的结果。文章还讨论了“假阳性”问题。
强度模型;机器学习;增强合奏;不平衡数据
1。 介绍
目前,大多数银行为用户提供安全的在线服务。这种保护的要素之一是检测和防止欺诈交易的系统。
在俄罗斯,2019年最后一个季度非现金支出的份额为50.4%,据分析师称,50%的门槛将在未来被克服。这些数字表明非现金交易增加,欺诈交易也增加。根据迈克菲的数据,2018年网络犯罪占全球国内生产总值的0.8%,世界银行估计网络攻击每年给全球经济造成的损失为4450亿美元。预计到2020年第二季度末,由于COVID-2019大流行和采取自我隔离措施,非现金交易将大幅增加。
在本研究中,欺诈检测问题通过泊松过程强度模型和监督机器学习算法两种方法来解决。各种非监督方法也被用于解决这个问题,限制玻尔兹曼机器(RBM)和生成对抗网络(甘)被强调[1]。
使用高度不平衡的样本会使欺诈交易的识别变得非常复杂,因此少数学习类的样本很少会被分类器错误地检测到。有几种方法可以解决这个问题,详情见文章[2,3]。
2。 问题陈述
在本文中,我们考虑二进制分类问题,确切地说,是信用卡欺诈交易的检测问题。
设X为物体特征的m乘n矩阵,Y为响应的m维向量。样本是
xm,yam()x}j),其中。正确回答的百分比计算为asaxi(x =):(Xx21,...,。→xinY)。对于泊松过程,是第I行的特征向量,并且(:x)表示为an0 ≤ i ≤ m。
建立模型后,我们得到算法
一 l
Q(a,Xl) = / = [a(xj) = yj],
l j 1
其中l m。任务是最小化机器学习方法的质量功能。
3。 泊松过程
3.1。 数学概念
设诈骗时间为τ∈0,+∞]。这样的随机变量是在一个过滤的概率空间(ω,F,φ,P)中定义的。ω表示世界的可能状态,F是σ-代数,φ=(Ft)t≥0是带有Ft的过滤包含直到时间t的所有信息,P是描述某些事件可能性的概率测度。直观地,人们可以通过观察过去直到时间t来确定欺诈时间是否发生在某个确定性时间之前,时间t被编码在过滤(Ft)中。对于计数过程,我们得到:现在考虑欺诈事件发生的时间顺序为(τn)对于n ≥ 0.表示X = {X(τ),τ ≥ 0}
X(t) = 1{τn≤t}
n≥0
换句话说,X(t)统计的是0到t之间的欺诈事件数量。这种过程的轨迹是分段常数的非递减函数,跳跃等于1,见图。1.
图1泊松过程轨迹
更多细节见文章[4]
723
3.2。 泊松过程的变化
定义。事件以一定强度λ发生的计数过程称为泊松过程,如果:
X(0) = 0,P(此事件)= 1;
流程有独立的增量;
对于0 ≤ s p,X(p)-X(s)是泊松分布,参数为sp λ(x)dx:
e spλ(x)dx(pλ(x)dx)k
p(X(p)-X(s)= k =) k!s
第[5]条载有同等的定义。
如果强度是时间λ = λ(t)的确定性函数,这样的过程称为非齐次泊松过程。
强度不随时间变化且具有独立和平稳增量的泊松过程称为齐次过程。
对于齐次情况,λ是常数;对于非齐次情况,λ = λ(t)。请注意,强度总是采用非负值。在设置强度函数系数的限制时,应考虑到这一点。
连续事件或到达之间的等待时间遵循参数sp λ(x)dx的指数分布。S1 = τ1,S I =τI-τI-1是等待时间。使用最大似然估计,均匀过程强度的估计采用以下形式:
λ? = 1 ,
S
为了找到非齐次情形的强度估计,我们需要确定使对数似然函数最大化的参数。该函数源自欺诈事件的联合密度:
τn)= logλ(τI)0 λ(x)dx n T
i 0
让我们知道截至t时刻的欺诈事件信息。新交易在时间T+δ到达。预测齐次和非齐次泊松过程欺诈的最终公式:
p(欺诈发生在T = T+δ)= 1e TT+δλ(x)dx.证据可参见[6]。
4。 合奏
在机器学习中,集成包括一组被训练来解决相同问题的几个算法。因此,集成给出了比集成中单独包含的每个算法更好的预测效率。使用反梯度依次建立
您可能关注的文档
- Duckietown中的自动车轮和摄像机校准.docx
- LogP模型中基于评估的自适应MPI集合操作.docx
- 创建足够的模拟模型来分析虚拟雾计算基础设施的性能参数.docx
- 存在不确定性时最优控制问题数值解的比较研究.docx
- 电力客户特征的数据挖掘技术.docx
- 动力系统程序控制多准则综合问题中可行方向的组合进化.docx
- 混合蚁群k均值算法与Grub切割算法在磁共振图像分割中的比较.docx
- 基于大脑启发的社会情感智能行为者通用框架的认知个体发育建模建议.docx
- 基于模块抽取的数据挖掘算法选择决策支持系统.docx
- 基于优化模型的信息通信系统控制算法化.docx
- 初中语文经典古文教学的有效性分析教学研究开题报告教学研究课题报告.docx
- 初中语文筛选与分析课文的方法探讨教学研究课题报告.docx
- 高中生物课程改革的挑战与对策教学研究课题报告.docx
- 高中生创造性思维训练的途径教学研究课题报告.docx
- 高中生科学实验报告写作的指导方法教学研究课题报告.docx
- 高中物理教学中概念图的应用实证研究教学研究课题报告.docx
- 教师情绪管理对教学效果的影响研究教学研究课题报告.docx
- 教师在课堂观察中的有效反馈机制研究教学研究课题报告.docx
- 初中生学习方式的变迁与教育应对教学研究课题报告.docx
- 初中生自我管理能力培养的研究教学研究课题报告.docx
文档评论(0)