- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2015 年“深圳杯”数学建模夏令营
A 题论文
医保欺诈行为的主动发现
队员:张童非(山东大学物理学院)
马新宇(山东大学软件学院)
宋文瑞(山东大学计算机学院)
指导教师:刘保东教授
山东大学
1
摘要
本文利用六个数据表主要对就诊者医保欺诈行为进行了发掘研究,并同时关联到可
疑医生、可疑科室以及可疑医院,充分利用所给的数据仓库挖掘了在医保过程中不同主
体所有疑似欺诈的行为,并最后给出深圳市社会医保诈骗行为的社会学特征和普遍监测
方法和准则。
本文的具体研究方法和过程如下:首先,对课题所提供的所有数据表格进行数据预
处理得到有利于数据挖掘和分析的数据仓库。运用多元统计分析的方法对就诊多个因素
的数据进行降维处理,得到主要成分,将贡献率小的信息进行忽略。接着利用K-means++
及其优化算法对主要成分进行聚类分析,得到了不同疑似度的人群,选取高疑似度的人
群作为初步的嫌疑人群。通过建立 SVM-KNN 分类器对初步结果进行检验,优化调整 K-
means++算法,寻找使分类器正确率最高且占比合适的最终嫌疑人群。
同时,本文利用所给数据仓库内部的数据特征结合社会医疗保险的原理与特征定义
了量化形式疑似度的概念,构造出包含费用、取药频次、医嘱项种类和就诊者个人信息
的综合判别函数,利用所构造出来的函数筛选出疑似欺诈的就诊者并给出就诊者的个人
信息汇总表,所得结果通过之前 Kmeans++与 SVM-KNN 结合的数据挖掘方法检验其正确
率,进行函数间的模型对比。
再次,我们把所分析到的结果进行数据可视化处理,由此课题样本映射出深圳市目
前医保欺诈的环境社会学特征和趋势,建立就诊者、医生、科室、医院等几个数据库之
间的映射关系,由所挖掘出来的疑似欺诈就诊者找到所有疑似欺诈的医生、科室、医院
的数据集合,并且细致分析就诊者、医生、科室、医院之间存在独立或合作欺诈的过程,
给出疑似欺诈数据集合和欺诈过程的探索报告。
然后,利用频繁项集挖掘方法 Apriori 的拓展算法分别根据不同的情形进行其他影
响因素因素的数据探索,由深圳市市民的其它社会学特征的关联规则挖掘出潜在的疑似
欺诈者。通过得到的其它特征优化加强 SVM-KNN,把之前数据挖掘原理和综合判别函数
所得到的疑似欺诈人群和正常人群作为样本训练集,检测判别函数的灵敏度和数据挖掘
算法的准确度,利用典型的支持向量机 (SVM)方法进行模式识别和机器学习,便可以自
动筛选出所有具有欺诈倾向的群体。
最后,给出现状分析和未来预测,给相关部门自动识别医保诈骗提供有意义的指导
作用。分析模型的优缺点,对比模型的优势和劣势,并对所阐述的模型进行进一步评价、
深化和推广拓展,给出未来此领域的研究大致方向。
关键词:数据挖掘 聚类分析 疑似度 综合判别函数 贝叶斯决策 离群监测 频
繁项集算法 关联规则 机器学习 支持向量机 数据可视化
2
目录
一、问题重述 5
二、问题背景 5
三、问题分析 8
四、问题假设 8
五、符号说明 9
六、模型的建立与求解 10
6.1 数据挖掘模型原理概述 10
6.2 医保数据预处理 12
6.2.1 数据预处理原理 12
6.2.2 医保数据预处理方法 14
6.3 主成分分析模型 18
6.3.1 主成分分析模型的主要步骤 18
6.3.2 模型的介绍 19
6.3.3 区间标度变量 22
6.3.4 主成分分析的具体操作过程 22
6.4 冒用别人医保卡诈骗(一卡多用情形)的筛选模型 24
6.5 构造定义欺诈的
您可能关注的文档
最近下载
- 品管圈PDCA获奖案例-精神科提高住院病人精神障碍作业治疗参与率医院品质管理成果汇报.pptx
- 基于混频非结构化数据的中国碳价预测.pdf VIP
- 《德固赛树脂产品资料》.ppt
- 全球变化课件06新生代衰落与第四纪.pptx VIP
- 2025年全国翻译专业资格(水平)考试土耳其语一级笔译试卷.docx VIP
- Unit 4 Amazing Plants and Animals Section B(1a-2d)课件 2025人教版英语八年级上册.pptx
- 全球变化课件新生代衰落与第四纪.ppt VIP
- 公安信访与警调对接课件.pptx VIP
- 高等数学(上册)(同济大学数学系)PPT全套完整教学课件.pptx
- 食材配送时间安排计划.docx VIP
文档评论(0)