- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于院内感染的数据挖掘
—FP-growth算法
电子信息工程学院 计算机科学与技术专业 张 薇
指导教师 FP-growth算法,该算法是一个频繁集产生算法,优点在于它不需要产生大量的候选集,因而在时间和空间上都有很好的效率。
在该系统实现过程中,首先对数据进行预处理,将数据离散化。
然后采用FP-growth算法对数据进行挖掘,为确保程序正确,在系统的开发过程对每个功能模块都用测试数据验证正确性,比较模块的执行结果是否与预期结果相一致。在FP-tree具体的实现中,通过了一系列的从低到高的数据结构来实现它,在程序的数据结构的定义和算法的实现的时候大量采用了C++的标准模板库(STL,Standard Template Library).这是基于以下的原因,PF-growth所涉及到的数据结构和基本算法比较复杂,但也都是以往的常用数据结构和算法多层嵌套,如向量类,集合类,快速排序算法等.而STL正是包含了这样许多通用的数据结构和基本算法的库。
最后阶段是结果分析,该系统得到的挖掘结果与实际生活相符合如夏季易得肠胃疾病,春节易得上呼吸道疾病,这进一步验证了挖掘结果的可靠性,但也得到一些人们没有预知到的结果,这需要医疗研究人员进一步验证。
该算法实现基于Window平台,编程工具是C++ builder,编程语言C++,采用STL。
关键词:数据挖掘,关联规则,支持度,置信度,FP-growth,FP-tree
一、数据挖掘过程概述
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘过程是多个步骤相互连接、反复进行人机交互的过程。:数据准备:搜集与相关病人数据。数据预处理:数据理解、属性选择、连续数据离散化、数据中噪声及缺失值处理、属性编码、实例选择等。:选择合适算法进行挖掘。解释评估:剔除冗余模式,进行。FP-growth算法是一个频繁集产生算法,与一般的类似于Apriori的频繁集产生算法相比,FP-growth的优点在于它不需要产生大量的候选集,因而在时间和空间上都有很好的效率。
首先,程序必须注意速度。因为它们常常涉及大量数据的处理。因此在程序中许多需要排序的数据结构都使用了平衡树,这是一种高效的对全序元素的组织方式。
其次,是对空间占用的考量。同样因为要处理大量的数据。
第三,是编程风格的考虑.要尽量采用通用化的代码。
基于上面三点的考量,本文在对程序的数据结构的定义和算法的实现的时候大量采用了C++的标准模板库(STL,Standard Template Library)。
(二)院内感染算法实现
本文所实现的数据挖掘算法实现分两个阶段:
a 频繁集的产生
b 关联规则产生
本文从数据结构和算法两方面对程序的实现进行详细说明。
1.数据结构
对应于算法描述中所出现的各个对象分别定义了一些数据结构.为了最大优化程序的效率,笔者根据各个对象被操作方式的不同定义不同的模板,如下表:
对象被操作方式 选用模板 模板的结构 排序 Vector 向量 遍历 List 双向链表 插入、删除、查找 map、set 红黑树(一种平衡树)A 频繁集的产生
第一步:建立频繁项头表和FP-tree。
FP-tree是一个压缩的数据结构,它用较少的空间存储了后面频繁集挖掘所需要的全部信息。)。频繁项头表记录频繁项和指向FP-tree的同名节点的指针。
建立频繁项头表和FP-tree的功能用AL1函数实现,具体流程如下:
首先扫描离散化后的数据进行统计,计算出每个属性值的出现次数。然后对每行属性值进行排序。第三步输入第一步得出的结果建立头表。最后根据以上几步的内容建立PF-tree。
第二步:产生频繁集
调用第一步所建立的频繁项头表和FP-tree,产生频繁集。此功能用AL2函数实现具体流程如下:
AL2函数流程
B产生关联规则
遍历所有频繁集,求出每个频繁集的所有组合,然后筛选出满足suport(此组合)/support(此频繁集)=置信度的组合。最后将筛选后的组合以及该频繁集减去该组合输出。这就是关联规则。
四、程序结果分析
首先为了验证程序的正确性,用测试数据测试每个功能模块,将运行结果于预期结果相对比。结果完全一致,确保了程序正确执行。
然后对该医院感染的数据挖掘结果进行分析,随着用户输入的支持度与置信度的不同,结果随之变化。例如当输入支持度20,置信度50,则结果如下:
结果
从结果可看出:
a.春季易得上呼吸道疾病
b.夏季易得肠胃疾病。
c. 用过青霉素的病人也可能得呼
您可能关注的文档
- 基于监督双限制连接Isomap算法带钢表面缺陷图像分类方法.pdf
- 基于教育国际化建筑环境与设备工程专业定位探讨_张国强.pdf
- 基于节约矩阵法配送中心送货路线优化问题的研究.doc
- 基于进口贸易国际技术外溢测度与应用.pdf
- 基于经验模态分解滚动轴承故障诊断方法.pdf
- 基于可视图网络节点重要性度量离心泵振动故障诊断方法.pdf
- 基于空间矢量调制PMSM直接转矩控制系统.pdf
- 基于快递运输组织方案快递竞争网络均衡.pdf
- 基于蓝牙技术耳机分析.doc
- 基于类运动协变性和加速度限制公设引力场方程.pdf
- 岸基供电系统 第4部分:工频电源.pdf
- 人教版八下英语Unit 5 What were you doing when the rainstorm came_测试卷.docx
- 热带作物品种区域试验技术规程 木薯.pdf
- 草原防火阻隔带建设技术规程.pdf
- 渔用气胀救生筏技术要求和试验方法-.pdf
- 浙江省杭州市2024-2025学年八年级下学期期中考试英语试卷(含答案).docx
- 重庆市渝北区六校联盟2024-2025学年九年级下学期期中教学大练兵语文试卷.docx
- 食品安全-花椒籽油 (2).pdf
- 2025年海博思创分析报告:储能集成“小巨人”,国内外业务进展可期.pdf
- 地理标志产品 宽城板栗.pdf
文档评论(0)