数据仓库与数据挖掘课程实验指导.docxVIP

数据仓库与数据挖掘课程实验指导.docx

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

【案例背景】

某国家级医院监测中心负责对全国的某类医院进行全面的数据监测,在工作过程中积累了上百份的医院病案数据,其监测网络在抽样时遵循分地区、分级别、全覆盖分群随机抽样的原则,对相应的医院状况具有非常好的代表性。研究者特意从医院病案监测数据库中进行了相应的分析挖掘,该数据库中包括了所有监测网点的住院病人病案首页资料,而且还补足了病案之外的医院状况、治疗方案等信息,完全可以满足相应数据分析的需要。

具体而言,研究者希望回答的问题如下:

住院病人的费用构成可以分为几大类型,格子二代类别特征和比例是多少?

相同病种的住院费用主要受哪些因素的影响,在中国建立药物费用控制体系是否可行?

中医疗法、西医疗法和中西医两法3中基本的治疗方法,究竟在针对每种疾病时哪一种疗效较好,费用更省?

【案例数据】

正式的项目中,研究者使用了全部的并按数据进行分析,出于对数据保密的需要,这里只按照ICD-9编码选取了其中的10种疾病类型,并且按照省级、地级、县级医院,以及东部、中部、西部地区较差,各抽取300例样本,共2700例病案样本进行分析,相应的分析结果仅用于方法展示,不代表真实情况,具体数据参见“病案数据.sav”。

【数据介绍】

由于病案数据库中的信息非常丰富,每个病案共有200余个变量,全部纳入既无必要,也会影响分析结果的准确性。结合各变量而定定义,最终决定使用下列变量进入后续的分析。

医院特征变量:医院代码、医院所在地(东、中、西部)、医院级别(省、地、县三级)。

个体特征变量:年龄、性别、婚姻状况(未婚、已婚、独身)、民族、职业等。

疾病种类:本案例中为10种。

病人入院情况:入院途径(门诊、急诊、转院入院)、病情(危、急、一般)。

医保类型:变量名称为费用来源,共分为社会基本医疗保险、商业保险、自费医疗、公费医疗、大病统筹以及其它六类。

住院费用状况:包括住院总费用,以及药费、检查费、诊疗费、手术费等一系列费用分项指标。

具体治疗情况:入院前经外院诊治、药物过敏标志、院内感染、输血情况、输液情况、有无手术,住院时有无出现病情危重、急症、疑难等。

治疗效果:疾病转归(治愈、好转、未愈、死亡)、出院方式(常规、自动、转院、其他)。

诊断符合情况:门出、入出符合率等。

中医特有变量:治疗类别(中医疗法、西医疗法、中西医两法)等。

时间变量:包括年份和月份,分别作为可能的混杂因素加以控制。

【实验内容】

实验一:

实验目的:搭建数据挖掘实验环境,了解数据挖掘工具的功能和基本操作。通过本实验掌握数据挖掘工具的基本功能,掌握数据录入、格式变换、存储、管理等。

实验原理:参见实验指导书的第一章《数据挖掘工具简介》

实验过程和要求:

分析费用数据分布

将数据导入IBMSPSSModeler,查看总费用和床位费、西药费等各项费用指标的描述统计,分析数据分布的特征并给出初步分析结果。

计算各指标的主要百分位数,分析如何进行数据整理。

实验二:

实验目的:数据预处理。利用weka或IBMSPSSModer进行数据的清理、转换和规约。掌握缺失值和噪声数据的处理方法。

实验原理:参见实验指导书的第二章《数据清理》

实验过程和要求:

(1)对数据中缺失值选用合适的方法填充。

(2)对年龄进行离散化操作,设定分割尺度,并解释原因。

(3变量合并

合并中成药和中草药费用,同一为中成药,代表中医药所对应的药费;合并手术费、血费、氧气费为手术费;合并检查费和治疗费为检查治疗费;剔除接生费。

(4极端值清理

通过数据分析,发现住院总费用和住院天数的极端值,并删除。

(5病种分布考察

查看“出院西医主诊断”数据的统计频率,分析不同疾病种类在样本中的构成和具体病种分布。

(6)变量变换

对分析中住院总费用、住院总天数等呈正偏态分布的数据进行对数变换。

实验三:

实验目的:使用挖掘工具IBMSPSSModer对数据选择合适的数据挖掘算法进行关联挖掘、分类挖掘、聚类挖掘和预测,并能对最后的挖掘结果进行分析和解释。利用Hadoop进行数据挖掘,设计和实现基于MapReduce的数据分类、聚类算法。

实验原理:参见实验指导书分类、聚类和关联规则挖掘实验

实验过程和要求:

(1)通过聚类分析确定费用类型

用因子分析床位费、西药费、诊疗费、其他费、发射费、护理费、中成药、检查治疗费、手术费等变量之间的相关性。

对费用数据选择不同的聚类方法进行聚类分析,并分析聚类结果,总结每一类的特征。

设计与实现基于MapReduce的K-means算法。

(2)以住院总费为应变量,医院代码、地区、费用来源、年龄、出院西医主诊断、出院方式、职业、中医特色治疗等变量作为因子,选择合适的方法分析住院总费用的影响因素并解释实验结果。

(3)预测住院总费用和住院时间

将住院总费用和住院时间作为应变量,

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档