- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
医保欺诈行为的主动发现
摘 要
医保欺诈行为,是指以非法占有为目的,用虚构事实或者隐瞒真相的方法,骗取公私财物的行为。医保欺诈,可以从病人资料,消费明细等数据记录来体现。本文主要通过分析记录的数据,找出可能的医保欺诈行为。总结出欺诈行为的数据特征,以便判断是否是医保欺诈。
首先,根据已有文献,对涉嫌诈骗行为进行分析,找出所给数据中对应数据,然后采用多元统计分析方法进行分析,主要使用SPSS软件中标识重复个案、K均值聚类分析、相关分析的方法,若个案重复次数过多以及聚类的案例数较少,则可能为欺诈。
针对数据一病人资料,我们从三方面分析,一方面对病人身份证号进行标记重复个案,发现重复个案占总数的4.1%,;另一方面对于医保手册号同样采取标记重复个案的方法,从结果可以看出重复个案占0.3%;最后,对Userupdate(用户更新次数)进行K均值聚类分析,发现第1类的聚类中心数大(即更新次数多)占总案例数的8%。以上三种数据特征则表示极可能是医保欺诈行为。
针对数据二费用明细表,我们也从三方面考虑。首先,单张处方的总价过高可能为欺诈,但是考虑到总价与单价、数量之间的相互影响,对此我们先对单价、数量、总价进行相关分析,发现单价与总价呈弱相关;然后用聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人ID号标记重复个案,由于重复个案所占比例较大,对重复个案进一步进行了聚类分析;最后,若下医嘱科室与病人科室不一致则可能为欺诈,对此我们绘制了简单线图,不在y=x直线上的即为欺诈记录。
最后分析了所建立模型的优缺点,并在所提模型基础上进一步建立预测欺诈的程序框图,以便在真实数据的基础上能快速筛查是否为医保欺诈行为。
关键词:医保欺诈 k均值聚类 标识重复个案 相关分析 SPSS
一、问题的重述
医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。请根据附件中的数据,找出可能的欺诈记录。
二、模型的假设
在我们的模型中做了如下假设:
1.假设数据来源真实有效;
2.假设分析过程中,数据无缺失;
3.假设对每个聚类分析结果,使用同一评判标准.
三、符号说明
本文用到的符号及其意义见下表:
变量 标准方差 初始聚类中心 样本与聚类中心的距离 误差平方和准则函数 欧式距离 新聚类中心 Pearson相关系数 Pearson相关系数检验统计量
四模型的建立与求解4.1基于病人资料的医保欺诈行为主动发现
4.1.1问题的分析
SPSS软件使用标识重复个案、聚类分析的方法,通过分析运行结果,做出重复个案与主个案所占比例、聚类中两类所占比例的饼状图。通过饼状图,可直观看出,所占比例的小的可能为欺诈记录。
4.1.2模型的建立
数据标准化
由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有个样本,个指标,则每个变量可表示为,均值
标准方差
则标准化后
聚类
系统聚类;,将个重复个案结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。
①设有n个样本,令I=1,选取K个初始聚类中心:;
②计算每一个数据样本与聚类中心之间距离:
如果满足,则;
③计算误差平方和准则函数JC,公式如下:
④判断是否满足聚类算法结束条件:如果,则表示算法结束,否则,I=I+1,计算下一个新的聚类中心,并返回②,新的聚类中心计算公式如下:
距离:对重复个案结果进行聚类时,“靠近”往往由某种距离来刻画。
令表示第个重复个案结果的第个指标, 表示第个重复个案与第个重复个案之间的距离,最常见计算距离的方法是:
欧几里德距离
即为欧氏距离
4.1.3模型的求解
所有最后一个匹配个案的指示符为主个案 频率 百分比 有效百分比 累积百分比 有效 重复个案 .3 .3 .3 主个案 99.7 99.7 100.0 合计 58018 100.0 100.0
图4 医保手册号重
文档评论(0)