- 1、本文档共62页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
【案例背景】
某国家级医院监测中心负责对全国的某类医院进行全面的数据监测,在工作过程中积累了上百份的医院病案数据,其监测网络在抽样时遵循分地区、分级别、全覆盖分群随机抽样的原则,对相应的医院状况具有非常好的代表性。研究者特意从医院病案监测数据库中进行了相应的分析挖掘,该数据库中包括了所有监测网点的住院病人病案首页资料,而且还补足了病案之外的医院状况、治疗方案等信息,完全可以满足相应数据分析的需要。
具体而言,研究者希望回答的问题如下:
住院病人的费用构成可以分为几大类型,格子二代类别特征和比例是多少?
相同病种的住院费用主要受哪些因素的影响,在中国建立药物费用控制体系是否可行?
中医疗法、西医疗法和中西医两法3中基本的治疗方法,究竟在针对每种疾病时哪一种疗效较好,费用更省?
【案例数据】
正式的项目中,研究者使用了全部的并按数据进行分析,出于对数据保密的需要,这里只按照ICD-9编码选取了其中的10种疾病类型,并且按照省级、地级、县级医院,以及东部、中部、西部地区较差,各抽取300例样本,共2700例病案样本进行分析,相应的分析结果仅用于方法展示,不代表真实情况,具体数据参见“病案数据.sav”。
【数据介绍】
由于病案数据库中的信息非常丰富,每个病案共有200余个变量,全部纳入既无必要,也会影响分析结果的准确性。结合各变量而定定义,最终决定使用下列变量进入后续的分析。
医院特征变量:医院代码、医院所在地(东、中、西部)、医院级别(省、地、县三级)。
个体特征变量:年龄、性别、婚姻状况(未婚、已婚、独身)、民族、职业等。
疾病种类:本案例中为10种。
病人入院情况:入院途径(门诊、急诊、转院入院)、病情(危、急、一般)。
医保类型:变量名称为费用来源,共分为社会基本医疗保险、商业保险、自费医疗、公费医疗、大病统筹以及其它六类。
住院费用状况:包括住院总费用,以及药费、检查费、诊疗费、手术费等一系列费用分项指标。
具体治疗情况:入院前经外院诊治、药物过敏标志、院内感染、输血情况、输液情况、有无手术,住院时有无出现病情危重、急症、疑难等。
治疗效果:疾病转归(治愈、好转、未愈、死亡)、出院方式(常规、自动、转院、其他)。
诊断符合情况:门出、入出符合率等。
中医特有变量:治疗类别(中医疗法、西医疗法、中西医两法)等。
时间变量:包括年份和月份,分别作为可能的混杂因素加以控制。
【实验内容】
实验一:
实验目的:搭建数据挖掘实验环境,了解数据挖掘工具的功能和基本操作。通过本实验掌握数据挖掘工具的基本功能,掌握数据录入、格式变换、存储、管理等。
实验原理:参见实验指导书的第一章《数据挖掘工具简介》
实验过程和要求:
分析费用数据分布
将数据导入IBMSPSSModeler,查看总费用和床位费、西药费等各项费用指标的描述统计,分析数据分布的特征并给出初步分析结果。
计算各指标的主要百分位数,分析如何进行数据整理。
实验二:
实验目的:数据预处理。利用weka或IBMSPSSModer进行数据的清理、转换和规约。掌握缺失值和噪声数据的处理方法。
实验原理:参见实验指导书的第二章《数据清理》
实验过程和要求:
(1)对数据中缺失值选用合适的方法填充。
(2)对年龄进行离散化操作,设定分割尺度,并解释原因。
(3变量合并
合并中成药和中草药费用,同一为中成药,代表中医药所对应的药费;合并手术费、血费、氧气费为手术费;合并检查费和治疗费为检查治疗费;剔除接生费。
(4极端值清理
通过数据分析,发现住院总费用和住院天数的极端值,并删除。
(5病种分布考察
查看“出院西医主诊断”数据的统计频率,分析不同疾病种类在样本中的构成和具体病种分布。
(6)变量变换
对分析中住院总费用、住院总天数等呈正偏态分布的数据进行对数变换。
实验三:
实验目的:使用挖掘工具IBMSPSSModer对数据选择合适的数据挖掘算法进行关联挖掘、分类挖掘、聚类挖掘和预测,并能对最后的挖掘结果进行分析和解释。利用Hadoop进行数据挖掘,设计和实现基于MapReduce的数据分类、聚类算法。
实验原理:参见实验指导书分类、聚类和关联规则挖掘实验
实验过程和要求:
(1)通过聚类分析确定费用类型
用因子分析床位费、西药费、诊疗费、其他费、发射费、护理费、中成药、检查治疗费、手术费等变量之间的相关性。
对费用数据选择不同的聚类方法进行聚类分析,并分析聚类结果,总结每一类的特征。
设计与实现基于MapReduce的K-means算法。
(2)以住院总费为应变量,医院代码、地区、费用来源、年龄、出院西医主诊断、出院方式、职业、中医特色治疗等变量作为因子,选择合适的方法分析住院总费用的影响因素并解释实验结果。
(3)预测住院总费用和住院时间
将住院总费用和住院时间作为应变量,
文档评论(0)