- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术在高血压病种上的应用研究.doc
数据挖掘技术在高血压病种上的应用研究
摘要:近十年来我国卫生信息化建设已取得了飞速的进展,信息系统应用水平不断提升,大量的医学信息被科学的记录下来,如何从这些医学数据资源挖掘出深层次的、隐含的、有价值的知识,就变得越来越重要。该文在对各种数据挖掘算法进行分析研究的基础上,选择IBM SPSS Modeler作为数据挖掘平台,以某社区医院电子病历作为数据源,利用不同的挖掘算法对电子病历系统中的数据进行研究。通过数据的采集、数据清理和数据筛选方法,结合常见的高血压病案,用不同的挖掘模型进行比较分析,总结出各种算法的特点及适用范围,得出适合这种常见病的挖掘模型,并给医务人员提供简单而有效的数据挖掘模型。
关键词:电子病历;数据挖掘;关联规则
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)05-0001-04
1 绪论
1.1研究背景
随着计算机技术和数据库技术的飞速发展,各种卫生信息系统在医学领域的广泛应用,由此积累下来的海量医学数据,在此海量的医学数据背后隐藏着许多重要的有用信息,怎样才能把深层次的、隐含的、有价值的知识从数据资源中把挖掘出来,这在当今日趋重要。在国内,数据挖掘技术在医疗服务领域的研究有所报道,但到目前为止,针对于不同的医学目标实现医学数据挖掘应用,怎样科学地选择合适的数据挖掘算法,此类方法学研究在国内尚还较少。
临床信息系统(CIS)中的电子病历系统是以病人为主导,包含所有横向的、纵向的医院信息和临床信息数据的系统。如何从这些数据集中使用不同数据挖掘技术挖掘出各种疾病的成因以及它们之间的相互关系、和各种疾病的发展规律,并总结各种治疗方案的诊疗效果,这对疾病的预防、诊断、治疗和医学研究意义非常重大。本文是基于SPSS Modeler软件平台的基础上对医学数据进行规则的挖掘和知识探索。
1.2 国内外数据挖掘的应用及研究现状
在国外,目前在金融领域、生物工程领域、企业分析以及网络信息搜索等许多领域数据挖掘技术都有了很好的应用[1]。国际知名调查机构通过技术调查,认为未来五年内数据挖掘和并行处理体系将挤在十大新兴技术投资焦点的前列,“数据挖掘和人工智能”将列在首位的。在我国,数据挖掘技术最早在如中国海关集团、人民银行、上海通用汽车等少数实力雄厚的国企或外资企业中得以充分应用。也有少数应用在经济上,如使用一般数量化模型如人工神经网络方法、回归分析法和时间序列方法在经济上对于股价指数进行预测。目前在国内,数据挖掘技术在医疗服务领域的研究已有一些成果,但至今为止,怎样科学地选择适当的数据挖掘算法,针对不同目标的实际应用挖掘,这方面的方法学在国内研究还较尚少。
1.3 研究意义
本研究以某社区医院电子病历作为数据源,对数据挖掘算法在电子病历系统中的应用进行了研究。结合常见高血压病案,通过使用不同的挖掘模型进行比较分析,总结出各种算法的特点及适用范围,得出适合这常见病的挖掘模型,并给医务人员提供简单而有效的数据挖掘模型。同时通过研究探索性电子病历数据挖掘技术的实现,也将进一步做更复杂的数据查询提供参考模式,这也给将来医务人员、科研工作者使用更高层次的数据分析方法解决诊疗水平提供有效的科学的途径,具有极其重要的现实意义。
2 数据挖掘综述
2.1 数据挖掘定义
从技术角度来解释,数据挖掘就是通过自动分化分析数据仓库的大量的、有噪声的、模糊的、不完全的实际应用数据,进行提取人们不知道的隐性的知识和规律,依托于数据库、数据统计和人工智能技术的发展,最大可能地利用已有信息和数据,归纳性推理,挖掘潜在规律[2]。数据挖掘技术主要由三个部分,即数据、算法和技术、建模能力组成。
2.2 常用的数据挖掘算法
2.2.1 神经网络
神经网络是由大量的简单的处理单元组成的,自适应非线性的大规模动力系统,是神经科学、统计学、计算机科学和物理学的交叉学科[3]。神经网络能够有良好的自适应、自学习和高容错能力,并具有分布式存储、并行处理以及联想等特点。目前在常用的多种训练算法和网络模型中,多层前馈型神经网络是应用最广泛的。
BP网络是一种由输入层、输出层和隐含层组成的单向传播的多层前馈网络,如图①所示,是目前在各行各业应用最多的一种模型。
2.2.2 决策树
决策树算法是属于的分类、回归和关联型算法,它主要用于对离散型和连续型的数据进行预测性的建模。
决策树的常用算法有:
1) CART算法
CART算法是一种二分递归分割技术,是结构简单的二叉树,它将总样本集分成两个子样本集,使每个非子结点都有两个分支[4]。
2 )CHAID算法
CHAID提供了一种在多个自变量
您可能关注的文档
- 探究中国农村土地流转市场发展.doc
- 探究产品研发过程中动态质量策划的应用.doc
- 探究人防工程建筑的防火设计.doc
- 探究公路桥梁施工中预应力技术应用.doc
- 探究农村饮水安全现状及保障对策.doc
- 探究办公自动化软件的使用技巧.doc
- 探究变电运行电气误操作事故原因及防范措施.doc
- 探究基于DSP的汽车发动机故障诊断.doc
- 探究开展数字电视工程需要注意的几个问题.doc
- 探究式教学在网络管理课程中的应用.doc
- 半导体材料性能提升技术突破与应用案例分析报告.docx
- 半导体设备国产化政策支持下的关键技术突破与应用前景报告.docx
- 剧本杀市场2025年区域扩张策略研究报告.docx
- 剧本杀行业2025人才培训体系构建中的市场需求与供给分析.docx
- 剧本杀行业2025年人才培训行业人才培养模式创新与探索.docx
- 剧本杀行业2025年内容创作人才需求报告.docx
- 剧本杀行业2025年区域市场区域剧本市场消费者满意度与市场竞争力研究报告.docx
- 剧本杀市场2025年区域竞争态势下的区域合作策略分析报告.docx
- 剧本杀行业2025人才培训与行业人才培养模式创新.docx
- 剧本杀行业剧本创作人才心理素质培养报告.docx
最近下载
- 珠心算家长会(金)课件.ppt VIP
- 税法(第5版)课件 曹越 第1--5章 税法基本原理、增值税--- 企业所得税.pptx
- 手外科疾病诊断与治疗.pptx VIP
- 2021乒乓球比赛活动设计方案.docx VIP
- 医疗器械分类目录2002版.doc VIP
- JBT10216-2013电缆桥架标准将代替JBT10216-2000旧标准.docx VIP
- 非遗知识文化云肩知识介绍PPT课件.pptx VIP
- 人行地通专项施工方案.doc VIP
- 阳江核电厂疏浚(清淤)项目环境影响报告书.docx VIP
- 2025广西公需科目考试答案(3套,涵盖95_试题)一区两地一园一通道建设;人工智能时代的机遇与挑战.pdf VIP
文档评论(0)