毕业论文_医保欺诈行为的主动发现_数学建模论文.doc

毕业论文_医保欺诈行为的主动发现_数学建模论文.doc

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2015 年深圳杯数学建模竞赛论文 医保欺诈行为的主动发现 参赛队员: 姓名 学号 学院 所在系 联系电话 戴鑫信息学院 自动化 吴倚天理学院 数学与应用数学 马先强药学院 制药工程 2015 年 5 月 30 日 摘要 中国医保体系覆盖面的不断扩大帮助了无数身患重病但无钱救治的家庭,但 随之而来的是某些不法分子利用医保服务的漏斗进行骗保的违法行为,这使得国 家医疗体系支出增多,医疗体系经济压力增大。要解决这一问题,防止医疗骗保, 医疗体系必须全面掌握病人的行为记录和背景信息。但是由于医疗体系面对的病 人信息太过庞大,且变化十分迅速,不可能使用传统的方法逐一检查病人的行为 记录和背景信息,而必须使用高效和自动化的数据库挖掘工具,扫描病人行为, 找出那些高度可疑的潜在违规用户进行调查,及时制止这部分用户的违规行为, 防止危害的进一步扩大。 数据挖掘是很好的处理大量数据,从中挖掘信息和知识的工具。对骗保行为 来说,这一违规行为的病人在整个病人数据库中所占比例较小,且这部分病人的 拿取药时间和开药金额等信息往往表现异常,与正常用户很不一样。就开药金额 单张处方费用问题来说,如果将整个病人数据库视为一个点集,这部分病人就可 以被视为“孤立点”。数据挖掘中的孤立点挖掘方法可以通过辨别孤立点和正常 点之间的差异性找到他们。 本论文采用基于分辨率的孤立点挖掘算法(RB 算法),建立了病人评估模型。 RB 算法最主要的优点是适用于海量的数据库,并且无需引入参数。但是 RB 算法 仅从数据集全局出发寻找孤立点,会导致孤立点的寻找过程中忽略了数据点所在 的类的密集程度对孤立点的影响。所以在 RB 算法的基础上提出了密集度加权的 分辨率孤立点挖掘算法(WRB 算法),WRB 算法计算每个孤立点相距最近的类的稠 密度测度作为分辨率的权重。从全局和局部出发,综合考虑数据点周围的点的个 数以及每个孤立点与距离本身最近的类的密集度对比来计算每个数据点的孤立 程度。 就病人取药时间的问题,将病人的取药时间看作一个个点,将点的个数以及 密集程度赋值,将一个病人的取药时间量化成一个值,使用一维格子分布密集度 算法对其密集度进行度量,从而排序,最后结合实际,进一步提出了混合密度算 法。 最后我们将病人数据代入模型,通过 MATLAB,利用 RB 算法、WRB 算法以及 密集度算法得出可疑病人,RB 算法以及 WRB 算法的交集即为可能用高额处方骗 保的病人,而利用混合密度算法得出的孤立程度较大的点,即为可能存在骗保的 病人。最后我们给出了每个科室的孤立程度最大的前十名,供有关部门进行调查, 同时也给出总体前 10 名,在人力物力不足情况下,可优先调查。 本文的创新点在于从孤立点挖掘的 RB 算法出发,考虑密集程度对孤立点的 影响,在 RB 算法的基础上引入权重参数,构造了 WRB 算法。同时在考虑费用的 基础上,考虑了拿药时间,从多角度验证嫌疑用户的欺诈行为。 关键词:医疗骗保,数据挖掘,孤立点,孤立因子,密集度 一、问题重述 医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保 险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造 成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着 别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可 能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。我 们已经拥有了病人资料、费用明细表、费用费表等核心的一些数据,我们需要在 这些数据中找到可疑的病人或处方。 二、数据处理与分析 2.1 数据预处理 输入数据是孤立点挖掘的一个重要特征。模型的输入,一般是数据记录的整 合,每个数据实例可以用一组属性值(也称特征,变量,维度等)来描述。属性 值可以有不同的类型,如布尔型,连续型和离散型等。每个数据可以包含一个或 多个类型相同或不同的属性。属性的性质决定了孤立点挖掘技术的适用性。比如, 对于基于统计学的挖掘模型必须输入连续型或离散型额数据。 本次的实验数据来自附件的 excel 中,由于数据存在着不完整,不规范,不匹配 等问题,为了提高数据挖掘的质量,去除会对结果产生影响的因子,需要对数据 进行预处理,数据预处理的过程包括三个步骤: (1)数据清洗:对于数据缺失项,根据其余各表补充,若无法补充关

文档评论(0)

wordge + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档