数学建模练习题医保欺诈的主动发现.docVIP

下载本文档

18
0
约5.56千字
约 14页
2016-10-19 发布于重庆
举报

数学建模练习题医保欺诈的主动发现.doc

数学建模练习题医保欺诈的主动发现

医保欺诈的主动发现摘要随着城镇职工基本医疗保险覆盖面的逐步扩大，参保人员结构更为复杂，医疗保险基金在医疗领域面临欺诈的风险也越来越大。防范医疗欺诈问题，是研究社会医疗保险的重要课题之一，以此医疗保险欺诈为背景提出了问题，本文运用聚类分析、等方法成功解决了这个问题，并在大量医保名单中找出了医保欺诈行为。首先根据数据2.1，我们对数据进行了预处理，利用Excel的删除重复项功能对人数进行了识别，然后查找并删除了死亡患者的数据，最后得到58014个不同的ID号，然后利用SPSS分别对身份证号、医保手册号采取标记重复个案的方法，标识出重复数据，其次利用k均值聚类分析法对Userupdate（用户更新次数）进行了分析，确定了主个案和重复个案占的比重，并画出其占比重的饼状图，发现第二类聚类中心数大，以上三种数据特征则表示极可能是医保欺诈行为。另外根据数据2.2，考虑到可能的欺诈行为，将其分为三类，分别为单张处方单价过高，但其与总价、数量之间存在着相互影响，对此我们先对单价、数量、总价进行相关分析，发现单价与总价呈弱相关；然后用聚类分析对医嘱子类、单价、数量、总价进行分类，案例数少的类即有欺诈嫌疑；其次，对病人ID号标记重复个案，由于重复个案所占比例较大，对重复个案进一步进行了聚类分析；最后，若下医嘱科室与病人科室不一致则可能为欺诈，对此我们绘制了简单线图，不在y=x直线上的即为欺诈记录。最后，对所建立的模型和求解方法的优缺点给出了客观的评价，并指出了改进的方法。关键词：医保欺诈 SPSS k均值聚类分析标志重复个案一、问题复述 1.1 问题背景随着我国医疗保险事业快速发展,在保险赔付过程中,存在着一些借助病案进行医疗保险欺诈的事件,2.1 2.2 2.3 2.4 2.5 2.6)，找出可能的欺诈记录。二、模型假设 1.；.假设数据来源真实有效; 2.假设分析过程中，数据无缺失三、符号说明变量标准方差初始聚类中心样本与聚类中心的距离误差平方和准则函数欧式距离新聚类中心 Pearson相关系数 Pearson相关系数检验统计量四、模型的建立与求解 4、模型建立与求解 4.1．1问题的分析为了研究找出医疗欺诈行为，我们根据病人ID利用Excel 2007软件的删除重复项功能，对人数进行识别，发现只有58014个不同的ID号，然后利用SPSS软件对身份证号、电话号码、医保卡号的重复项进行标志，并利用聚类分析对其进行分析，最后得出主个案和重复个案所占比例的饼状图，通过饼状图，我们可以清晰的发现医保欺诈为占比重小的那部分 4.1.2聚类分析聚类分析的基本思想聚类clustering,简单的讲就是将一个给定的数据集分成若干个不同簇的过程聚类算法中的簇指的是数据对象的集合且这种数据对象集合必须满足条件同一簇中的数据对象间具有较大的相似性而不同簇中的数据对象间具有较小的相似性聚类的主要指导思想就是尽可能使同一簇内对象相似度达到最大且不同簇间对象相异度达到最大。 K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。 K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。 4．1.2.1 K-means聚类分析方法 k个初始类聚类中心点的选取对聚类结果具有较大的影响，因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心，初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象，根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后，一次迭代运算完成，新的聚类中心被计算出来。如果在一次迭代前后，J的值没有发生变化，说明算法已经收敛。 K-means聚类分析法的步骤：对Userupdate（变量）的标识重复个案的结果，进行分类主要采用聚类分析法，而求取类之间的距离有多种方法，其中最常用的是欧几里德距离。数据标准化由于所选数据的量纲和数值大小都不一致，数值的变化范围也不同，因此必须首先对所选数据进行标准化处理，如果有个样本，个指标，则每个变量可表示为，均值

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数学建模练习题医保欺诈的主动发现.docVIP