- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
医保欺诈行为的主动发现电子
PAGE \* MERGEFORMAT 17
医保欺诈行为的主动发现
摘 要
医保欺诈行为,是指以非法占有为目的,用虚构事实或者隐瞒真相的方法,骗取公私财物的行为。医保欺诈,可以从病人资料,消费明细等数据记录来体现。本文主要通过分析记录的数据,找出可能的医保欺诈行为。总结出欺诈行为的数据特征,以便判断是否是医保欺诈。
首先,根据已有文献,对涉嫌诈骗行为进行分析,找出所给数据中对应数据,然后采用多元统计分析方法进行分析,主要使用SPSS软件中标识重复个案、K均值聚类分析、相关分析的方法,若个案重复次数过多以及聚类的案例数较少,则可能为欺诈。
针对数据一病人资料,我们从三方面分析,一方面对病人身份证号进行标记重复个案,发现重复个案占总数的4.1%,;另一方面对于医保手册号同样采取标记重复个案的方法,从结果可以看出重复个案占0.3%;最后,对Userupdate(用户更新次数)进行K均值聚类分析,发现第1类的聚类中心数大(即更新次数多)占总案例数的8%。以上三种数据特征则表示极可能是医保欺诈行为。
针对数据二费用明细表,我们也从三方面考虑。首先,单张处方的总价过高可能为欺诈,但是考虑到总价与单价、数量之间的相互影响,对此我们先对单价、数量、总价进行相关分析,发现单价与总价呈弱相关;然后用聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人ID号标记重复个案,由于重复个案所占比例较大,对重复个案进一步进行了聚类分析;最后,若下医嘱科室与病人科室不一致则可能为欺诈,对此我们绘制了简单线图,不在y=x直线上的即为欺诈记录。
最后分析了所建立模型的优缺点,并在所提模型基础上进一步建立预测欺诈的程序框图,以便在真实数据的基础上能快速筛查是否为医保欺诈行为。
关键词:医保欺诈 k均值聚类 标识重复个案 相关分析 SPSS
一、问题的重述
医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的???为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。请根据附件中的数据,找出可能的欺诈记录。
二、模型的假设
在我们的模型中做了如下假设:
1.假设数据来源真实有效;
2.假设分析过程中,数据无缺失;
3.假设对每个聚类分析结果,使用同一评判标准.
三、符号说明
本文用到的符号及其意义见下表:
变量标准方差初始聚类中心样本与聚类中心的距离误差平方和准则函数欧式距离新聚类中心Pearson相关系数 Pearson相关系数检验统计量
四、模型的建立与求解
因为单张处方药费特别高一张卡及在一定时间内反复多次拿药可能涉嫌医保欺诈,故分别采用标记重复个案、聚类分析、相关性分析的方法对病人资料及费用明细进行分析。
4.1基于病人资料的医保欺诈行为主动发现
4.1.1问题的分析
判断是否为医保欺诈行为,需要从病人资料中的身份证号、医保手册号、Userupdate(用户更新次数)这三方面考虑。对此利用SPSS软件使用标识重复个案、聚类分析的方法,通过分析运行结果,做出重复个案与主个案所占比例、聚类中两类所占比例的饼状图。通过饼状图,可直观看出,所占比例的小的可能为欺诈记录。
4.1.2模型的建立:标识重复个案与聚类分析
标识重复个案:
当输入大量数据时,有时候会意外地出现输入同一条记录多次;或同一条记录的某部分多次出现,即多个个案具有相同的主标识值,但它们有不同的次标识值(比如,同一个身份证号有多个不同的序列号)。另外一种出现重复个案的情况是,多个个案代表同一个案,但是除这些个案的标识变量取值相同之外,其他变量的取值不同。
聚类分析:
对Userupdate(变量)的标识重复个案的结果,进行分类主要采用聚类分析法,而求取类之间的距离有多种方法,其中最常用的是欧几里德距离。
数据标准化
由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有个样本,个指标,则每个变量可表示为,均值
标准方差
则标准化后
聚类
系统聚类;,将个重复个案结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。
①设有n个样本,令I=1,选取K个初始聚类
您可能关注的文档
- 北京电大社会实践报告论文格式及模版.doc
- 北京理工大学矩阵分析习题解答.doc
- 北京电视中心综合大楼施工组织机构.doc
- 北京科技大学2009年信息安全数学基础A卷.doc
- 北京空调移机费用.doc
- 北京百荣世贸商城总体策划方案wzgc.doc
- 北京电子标书生成器V25说明书投标版.doc
- 北京联合大学党建和思想政治教育研究课题申请书.doc
- 北京睿达华通公司冒用他人字号与商标进行产品推广构成侵权.doc
- 北京网尚院线影院开店手册2010年12月.doc
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
文档评论(0)