基于主成分分析和聚类分析医保欺诈行为主动发现.docVIP

下载本文档

16
0
约3.05千字
约 7页
2018-08-28 发布于福建
举报
版权申诉

基于主成分分析和聚类分析医保欺诈行为主动发现.doc

此“医疗卫生”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于主成分分析和聚类分析医保欺诈行为主动发现

基于主成分分析和聚类分析医保欺诈行为主动发现　　摘要考虑到病人医保欺诈的多种可能性，本文采用主成分分析和聚类分析方法建立病人欺诈可疑度评价模型，对病人是否存在欺诈行为作出分析和判别。　　关键词主成分分析聚类分析医保欺诈防范　　中图分类号：TP311 文献标识码：A DOI：10.16400/j.cnki.kjdkx.2017.12.069 　　Abstract Considering the many possibilities of patients medical insurance and fraud， this paper uses principal component analysis and cluster analysis to establish the evaluation model of suspicious patients’ fraud， and analyzes and discriminates the patients fraud. 　　Keywords principal component analysis； cluster analysis； medicare and fraud； prevent 　　0 引言　　随着医改的不断深入，医疗保障体系不断拓展覆盖保障人群，做好医保欺诈的防范，尤其是在规范医疗行为方面显得尤为重要。在有关机构的调查中显示，过度医疗，分解住院，冒用出借医保卡，虚假收费等为目前欺诈比例最大的几个手段。本文将针对以深圳某医院一个月的35810个患者记录为例分析医保欺诈行为。根据病人单月内消费次数、消费金额、购药数量、购药种类及病人医保卡的使用人数等，采用主成分分析和聚类分析方法，找出可能存在欺诈行为的记录。　　1 数据处理　　1.1 指标变量的选取　　目前社会上医保欺诈的手段多种多样，总体来说可归结为6种情况：拿着别人的医保卡配药，即一张医保卡被多个人使用；单次消费特别高，一个病人对应一个或多个账单，这些账单的费用有高有低，选取其中最高的费用作为一个考评指标；一张卡在一定时间内反复多次拿药；某段时间内消费总金额过高；某次购药数量很多；某段时间内反复购买大量药品。　　因此我们选取6种评价指标进行主成分分析：对应的医保卡使用人数（）；单次最高消费金额（）；单月消费次数（）；消费总金额（）；购买药品总数量（）；单次最大购药数量（）。　　1.2评价指标标准化　　对每个病人的各个指标进行打分。设定每个变量的满分为10分，建立指标评分模型：　　病人的指标变量具有不同的分数，分数越高代表欺诈的可能性越大，分数越低代表欺诈的可能性越小。例如，病人医保卡的使用人数是刻画病人是否正常使用医保卡的一个重要指标，即病人的医保卡使用人数越多，则病人欺诈的可能性越大。对于指标，病人医保卡的使用人数可能有三种情况，仅有一人使用，即 = 1；被两个人使用，即 = 2；被三个人使用，即 = 3。按照上面指标评分模型，可分别计算出相应的：　　2 主成分分析　　2.1 KMO和 Barrtlett的检验　　使用SPSS软件对标准化的数据进行KMO和Barrtlett的检验：　　由表1可以看出Barrtlett检验统计量为950.662，相应的Sig为0.000，相关系数矩阵与单位阵有显著差异，此假设被拒绝，同时，KMO值为0.792，原有变量适合作主成分分析。　　2.2 相关系数矩阵　　相关系数矩阵是6个变量两两之间相关系数大小的方阵，反映了变量之间的相关系数大小（见表2）。　　2.3 公因子方差　　公因子方差给出了主成分从原始变量中提取的信息（表3）。　　可见，所有变量的共同方差均较高，各个变量的信息丢失都较少，因此本次主成分分析提取的总体效果较理想。　　2.4 解释的总方差　　各因子旋转前和旋转后的特征值、方差贡献率和累积方差贡献率的计算结果如表4：　　其中第一列是因子编号，以后三列组成一组，每组中数据项的含义依次是特征值，方差贡献率和累计方差贡献率。由解释的总方差及特征值得碎石土图可以知道第一主成分的方差是2.476，第二主成分的方差是1.434，第三主成分的方差是1.000。根据累计贡献率超过80%的一般选取原则，主成分1、主成分2和主成分3的累计贡献率已达到了81.682%的水平，表明原来6个变量反映的信息可由三个主成分反映81.682%，能够反映主要信息，主成分分析效果较理想。　　2.5 成份得分系数矩阵　　2.6 成份得分协方差矩阵　　协方差是反映的变量之间的二阶统计特性，如果变量之间的相关性很小，则所得的协方差矩阵几乎是一个对角矩阵。这里得出的主成分的协方差矩阵是一