医保欺诈行为的主动发现..pdf

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
医保欺诈行为的主动发现.

2015 年“深圳杯”数学建模夏令营 A 题论文 医保欺诈行为的主动发现 队员:张童非(山东大学物理学院) 马新宇(山东大学软件学院) 宋文瑞(山东大学计算机学院) 指导教师:刘保东教授 山东大学 1 摘要 本文利用六个数据表主要对就诊者医保欺诈行为进行了发掘研究,并同时关联到可 疑医生、可疑科室以及可疑医院,充分利用所给的数据仓库挖掘了在医保过程中不同主 体所有疑似欺诈的行为,并最后给出深圳市社会医保诈骗行为的社会学特征和普遍监测 方法和准则。 本文的具体研究方法和过程如下:首先,对课题所提供的所有数据表格进行数据预 处理得到有利于数据挖掘和分析的数据仓库。运用多元统计分析的方法对就诊多个因素 的数据进行降维处理,得到主要成分,将贡献率小的信息进行忽略。接着利用K-means++ 及其优化算法对主要成分进行聚类分析,得到了不同疑似度的人群,选取高疑似度的人 群作为初步的嫌疑人群。通过建立 SVM-KNN 分类器对初步结果进行检验,优化调整 K- means++算法,寻找使分类器正确率最高且占比合适的最终嫌疑人群。 同时,本文利用所给数据仓库内部的数据特征结合社会医疗保险的原理与特征定义 了量化形式疑似度的概念,构造出包含费用、取药频次、医嘱项种类和就诊者个人信息 的综合判别函数,利用所构造出来的函数筛选出疑似欺诈的就诊者并给出就诊者的个人 信息汇总表,所得结果通过之前 Kmeans++与 SVM-KNN 结合的数据挖掘方法检验其正确 率,进行函数间的模型对比。 再次,我们把所分析到的结果进行数据可视化处理,由此课题样本映射出深圳市目 前医保欺诈的环境社会学特征和趋势,建立就诊者、医生、科室、医院等几个数据库之 间的映射关系,由所挖掘出来的疑似欺诈就诊者找到所有疑似欺诈的医生、科室、医院 的数据集合,并且细致分析就诊者、医生、科室、医院之间存在独立或合作欺诈的过程, 给出疑似欺诈数据集合和欺诈过程的探索报告。 然后,利用频繁项集挖掘方法 Apriori 的拓展算法分别根据不同的情形进行其他影 响因素因素的数据探索,由深圳市市民的其它社会学特征的关联规则挖掘出潜在的疑似 欺诈者。通过得到的其它特征优化加强 SVM-KNN,把之前数据挖掘原理和综合判别函数 所得到的疑似欺诈人群和正常人群作为样本训练集,检测判别函数的灵敏度和数据挖掘 算法的准确度,利用典型的支持向量机 (SVM)方法进行模式识别和机器学习,便可以自 动筛选出所有具有欺诈倾向的群体。 最后,给出现状分析和未来预测,给相关部门自动识别医保诈骗提供有意义的指导 作用。分析模型的优缺点,对比模型的优势和劣势,并对所阐述的模型进行进一步评价、 深化和推广拓展,给出未来此领域的研究大致方向。 关键词:数据挖掘 聚类分析 疑似度 综合判别函数 贝叶斯决策 离群监测 频 繁项集算法 关联规则 机器学习 支持向量机 数据可视化 2 目录 一、问题重述 5 二、问题背景 5 三、问题分析 8 四、问题假设 8 五、符号说明 9 六、模型的建立与求解 10 6.1 数据挖掘模型原理概述 10 6.2 医保数据预处理 12 6.2.1 数据预处理原理 12 6.2.2 医保数据预处理方法 14 6.3 主成分分析模型 18 6.3.1 主成分分析模型的主要步骤 18 6.3.2 模型的介绍 19 6.3.3 区间标度变量 22 6.3.4 主成分分析的具体操作过程 22 6.4 冒用别人医保卡诈骗(一卡多用情形)的筛选模型 24 6.5 构造定义欺诈的

文档评论(0)

yanmei113 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档