- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于clementine软件的住院费用影响因素分析.doc
基于clementine软件的住院费用影响因素分析
摘 要:本文主要选取东中西地区不同类型医院的2000个病例数据,利用clementine软件建立决策树模型与单变量及多变量神经网络模型,分析影响住院费用的主要影响因素,并对三种模型的精度进行比较,得出结论:影响住院费用因素主要有住院天数、地区、费用来源、年龄、级别等因素,并为缓解就医压力问题提供相关参考意见。
关键词:clementine;决策树模型;神经网络模型;影响因素
1 研究背景和目的
近年来,“看病难,看病贵”一直是影响民生的重大问题,为此政府也出台相应的医疗改革政策,旨在解决老百姓无法支付高昂的医疗费用的问题,为老百姓的健康提供保障。但导致医疗费用高的原因是复杂多方面的,如:是否有医疗保险,住院的天数,病情的严重程度等等都会导致医疗费用的不同。为了更加深入的探究导致医疗费用如此高昂的愿意,本文选取来自东中西地区不同类型医院的2000个病例数据,通过对医疗费用的影响因素进行分析,为政府制定更加高效、合理的医疗改革政策提供一定的参考意见。
2 方法介绍
本文主要通过决策树模型和构建神经网络模型对影响住院总费用的因素进行分析。
(1)决策树模型
决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。
(2)神经网络模型
“BP”网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)。
3 数据预处理
本文分析的变量有32个,主要可以概括为10个方面,分别为:(1)医院特征变量,包括:医院代码、医院所在地区、医院级别3个变量;(2)病人基本特征,包括:年龄、性别、婚姻状况、民族、职业5个变量;(3)病人住院情况,包括:入院途径、入院时的病情2个变量;(4)医保,包括:医保类型,是否医保拒付2个变量;(5)具体治疗情况,包括:药物过敏标志、院内感染、输血情况、输液情况、有无手术、入院前是否经外院治疗、住院时有无出现病情危重、住院时有无出现病情急症、住院时有无出现病情疑难9个变量;(6)治疗效果,包括:疾病转归、出院方式2个变量;(7)诊断符合情况:门出、入出诊断符合率;(8)中医特有变量,如:治疗类别;(9)时间变量,包括:年份、月份等;(10)入院费用状况。
(一)数据审核
(1)离群值与极端值的处理
通过数据审核可知,住院天数的最小值为1,最大值为302,住院费用最小值为0,这些数据都是不符合实际情况的。此外通过对数据质量的核查可知,住院天数存在33个离群值,12极端值;住院费用存在21个离群值,16个极端值。这些离群值和极端值的存在会影响建模的精确程度,故本位采用四分位差标准对数据进行修正处理,去除了24条记录,数据质量得到提高。
(2)变量变化
通过数据审核的结果可知,住院天数、住院费用明显偏态分布,如图1所示,故需对其进行变换。本文主要采用取对数的形式进行变换,经变换后的分布形式如图2所示,显然,经过对数变换之后,住院费用与住院天数的分布更加符合正态分布的形式。
变量变换除了住院费用与住院天数进行正态分布的变换之外,还需对年龄变量进行离散化处理。原始数据中年龄作为连续性变量,在不同年龄段内,年龄酶增加一岁,其影响是不同的,如作为连续性变量进入模型,则会导致误差。故本文需对年龄变量进行分箱处理,将连续性变量转换为分类型变量,分箱结果由表1可知。
(3)变量筛选与分区
利用filter选项卡删除原先的年龄、住院天数、住院总费用变量,并通过Type选项卡将log(住院总费用)作为输出变量,其他变量作为输入变量。并通过分区选项卡对数据进行分区,70%为训练集,30%为测试集。
4 模型建立
(一)分类回归树模型
本文主要通过对住院费用进行建模,住院费用为连续型变量,故先用分类回归树进行分析建模,原因为分类回归树模型不仅能够对分类型变量进行建模,同时也能对数值型变量进行建模。结果如图3所示。
由图3可知,影响住
文档评论(0)