- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
队伍编号
dsa2400271
题号
(B)
应用集成机器学习对电信银行卡诈骗的数据分析研究
摘要
现阶段电信银行卡诈骗问题日益严峻,对个人财产安全和社会稳定构成了严重威胁。为此本文通过综合运用相关性分析、灰色关联分析、集成机器学习以及Stacking模型融合方法,借助MATLAB和SPSS等工具,深入探究了电信诈骗的分布特征及其指标间的关联性。本研究不仅量化了各个特征对电信诈骗的影响程度,还特别分析了银行卡转账是否为同银行及是否为线上交易这两个关键特征与诈骗行为的显著联系。此外,本文还对电信银行卡诈骗进行了有效预测,从而在实践应用中降低诈骗发生的概率,对维护社会秩序,以及保障公民财产安全具有一定参考价值。
为提高数据的精度,首先本文对电信银行卡交易数据集进行预处理,包括识别并处理样本不均衡问题、探索性分析以及特征的分箱和编码。其次,进行数据结构优化和归一化。然后基于不平衡数据采用SMOTE过采样技术进行平衡,并通过逻辑回归算法评估原始与过采样后的数据集分类效果,最终确定采用优化后的采样数据。
针对问题1,发生电信银行卡诈骗数据的绘图分析。首先本文通过数据可视化技术绘制扇形图和柱状图,深入分析了电信银行卡诈骗的分布和特点,其中“有无发生电信银行卡诈骗”比例见REF_Ref169078920\h图5,线上和线下诈骗案例的数量对比见REF_Ref169079160\h图6。之后进一步分析探讨了诈骗行为的分布特征、发展趋势及其对用户行为和银行安全策略的影响。
针对问题2,评估发生电信诈骗的指标特征之间的关联性。本文利用灰色关联分析法,通过针对电信诈骗案例中“使用银行卡设备转账”和“使用银行卡PIN码转账”两个指标,评估了它们与电信诈骗发生的关联性,发生电信诈骗的关联程度效果见REF_Ref166368531\h图7,发生电信诈骗的概率分布见表9,结果显示使用银行卡在设备上进行转账交易的情况下更容易发生电信诈骗,同时使用PIN的转账交易在电信诈骗的概率上降低了0.09%。
针对问题3,发生电信诈骗指标之间的相关性探究。本文首先对采用SMOTE技术优化后的数据集采用相关性分析对特征指标影响程度进行量化,之后使用Kendall’sW检验对模型进行优化处理,结果显示总体数据的显著性P值为0.000***,Kendall协调系数??值为0.817,因此相关性的程度为高度的一致性。最后绘制Spearman秩相关系数和Kendall秩相关系数热力图见REF_Ref166345958\h图9,数据结果显示Distance1、Ratio、Repeat和Online与电信诈骗的发生具有较强的正相关性,而Card和Pin则显示出负相关性。此外,发生电信银行卡诈骗的显著程度见REF_Ref169083119\h表10。
针对问题4,基于电信银行卡诈骗的预测分析。首先,本文在问题3相关性分析模型计算结果的基础上,通过建立基于集成机器学习对电信银行卡诈骗的预测模型,分别使用GBDT、XGBoost、RUSBoost算法对电信银行卡诈骗进行预测。其次,通过stacking的方法进行模型融合,同3种基学习器对比得出最优解见REF_Ref169089489\h表12-13。其中stacking融合模型的F1得分在四个分类器中最高,均达到0.98以上,说明stacking融合模型对电信银行卡诈骗的预测方面具有较高的泛化能力,从训练效果发现融合后的模型比单独的基学习器效果更好。最后基于研究成果,分别向公安部门、银行和市民们提出了一份建议。
最后,本文针对电信银行卡诈骗预测模型进行了灵敏度检验和测试模型的鲁棒性,用于进一步提高模型的精准度。
关键词:电信诈骗;相关性分析;灰色关联分析;机器学习;Stacking融合
目录
TOC\o1-2\h\z\u1问题重述 1
1.1研究背景与意义 1
1.2文献综述 1
1.3研究选题 2
2研究思路 2
3模型假设 3
4符号说明 3
5数据的预处理 4
5.1样本数据的处理 4
5.2数据集特征探索 5
5.3样本数据的结构优化 7
6问题1:发生电信银行卡诈骗数据的绘图分析 10
6.1模型的建立与求解 10
6.2结果分析 10
7问题2:确定发生电信诈骗的指标特征 12
7.1灰色关联分析模型的建立与求解 12
7.2结果分析 13
8问题3:发生电信诈骗指标之间的相关性探究 14
8.1模型的建立与求解 14
8.2结果分析 15
8.3Kendall’sW检验 16
9
您可能关注的文档
- gbdt分类数学建模竞赛.docx
- Spearman相关性分析数学建模竞赛.docx
- Kendall一致性检验数学建模竞赛.docx
- Kendall's tau-b相关性分析数学建模竞赛.docx
- RUSBoost数学建模竞赛.docx
- xgboost分类数学建模竞赛.docx
- 基于SICAS模型的佳帮手直播营销策略优化研究_王冰.pdf
- 正态性校验数学建模竞赛.docx
- A题优秀论文-5数学建模竞赛.pdf
- 描述性统计数学建模竞赛.docx
- 浙江省温州市浙南名校联盟2025-2026学年高一上学期期中联考数学试题含解析.docx
- 26高考数学提分秘诀重难点34圆锥曲线中的定点、定值、定直线问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点35概率与统计的综合问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点31圆锥曲线中的切线与切点弦问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点30圆锥曲线中的弦长问题与长度和、差、商、积问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点29巧解圆锥曲线的离心率问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点28直线与圆的综合(举一反三专项训练)(全国通用)(含解析).docx
- 寡核苷酸药物重复给药毒性研究技术指南.docx
- 重组溶瘤腺病毒生产质量管理标准.docx
- 26高考数学提分秘诀重难点27直线与圆中常考的最值与范围问题(举一反三专项训练)(全国通用)(含解析).docx
最近下载
- 2025年演出经纪人视觉设计之未来演出视觉形态与技术展望专题试卷及解析.pdf VIP
- 入厂安全教育培训课件.ppt VIP
- 某工厂办公室管理制度(128页).doc VIP
- 建筑施工安全检查表(Word).doc VIP
- 平安双子星个人医疗保险条款.pdf VIP
- 2025年无人机驾驶员执照遥控器在敏感区域(机场、禁飞区)附近的安全操作规程专题试卷及解析.pdf VIP
- 2025年无人机驾驶员执照气压计、磁罗盘等传感器维护与干扰排除专题试卷及解析.pdf VIP
- 2024年大米蛋白项目可行性研究报告.docx
- 2025年信息系统安全专家业务连续性计划(BCP)制定策略专题试卷及解析.pdf VIP
- Z20名校联盟(浙江省名校新高考研究联盟)2025届高三第一次联考试题及答案化学试卷及答案.docx VIP
原创力文档


文档评论(0)