基于院内感染数据挖掘.docVIP

下载本文档

2
0
约 6页
2017-08-30 发布于安徽
举报
版权申诉

基于院内感染数据挖掘.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于院内感染的数据挖掘 —FP-growth算法电子信息工程学院计算机科学与技术专业张薇指导教师 FP-growth算法，该算法是一个频繁集产生算法,优点在于它不需要产生大量的候选集，因而在时间和空间上都有很好的效率。在该系统实现过程中，首先对数据进行预处理，将数据离散化。然后采用FP-growth算法对数据进行挖掘，为确保程序正确，在系统的开发过程对每个功能模块都用测试数据验证正确性，比较模块的执行结果是否与预期结果相一致。在FP-tree具体的实现中，通过了一系列的从低到高的数据结构来实现它，在程序的数据结构的定义和算法的实现的时候大量采用了C++的标准模板库(STL,Standard Template Library).这是基于以下的原因,PF－growth所涉及到的数据结构和基本算法比较复杂，但也都是以往的常用数据结构和算法多层嵌套,如向量类,集合类,快速排序算法等.而STL正是包含了这样许多通用的数据结构和基本算法的库。最后阶段是结果分析，该系统得到的挖掘结果与实际生活相符合如夏季易得肠胃疾病，春节易得上呼吸道疾病，这进一步验证了挖掘结果的可靠性，但也得到一些人们没有预知到的结果，这需要医疗研究人员进一步验证。该算法实现基于Window平台，编程工具是C++ builder，编程语言C++,采用STL。关键词：数据挖掘，关联规则，支持度，置信度，FP－growth，FP-tree 一、数据挖掘过程概述数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘过程是多个步骤相互连接、反复进行人机交互的过程。：数据准备：搜集与相关病人数据。数据预处理：数据理解、属性选择、连续数据离散化、数据中噪声及缺失值处理、属性编码、实例选择等。：选择合适算法进行挖掘。解释评估：剔除冗余模式，进行。FP-growth算法是一个频繁集产生算法,与一般的类似于Apriori的频繁集产生算法相比,FP-growth的优点在于它不需要产生大量的候选集,因而在时间和空间上都有很好的效率。首先,程序必须注意速度。因为它们常常涉及大量数据的处理。因此在程序中许多需要排序的数据结构都使用了平衡树,这是一种高效的对全序元素的组织方式。其次,是对空间占用的考量。同样因为要处理大量的数据。第三，是编程风格的考虑.要尽量采用通用化的代码。基于上面三点的考量，本文在对程序的数据结构的定义和算法的实现的时候大量采用了C++的标准模板库(STL,Standard Template Library)。（二）院内感染算法实现本文所实现的数据挖掘算法实现分两个阶段： a 频繁集的产生 b 关联规则产生本文从数据结构和算法两方面对程序的实现进行详细说明。 1．数据结构对应于算法描述中所出现的各个对象分别定义了一些数据结构.为了最大优化程序的效率，笔者根据各个对象被操作方式的不同定义不同的模板，如下表：对象被操作方式选用模板模板的结构排序 Vector 向量遍历 List 双向链表插入、删除、查找 map、set 红黑树（一种平衡树）A 频繁集的产生第一步：建立频繁项头表和FP-tree。 FP-tree是一个压缩的数据结构,它用较少的空间存储了后面频繁集挖掘所需要的全部信息。)。频繁项头表记录频繁项和指向FP-tree的同名节点的指针。建立频繁项头表和FP-tree的功能用AL1函数实现，具体流程如下：首先扫描离散化后的数据进行统计，计算出每个属性值的出现次数。然后对每行属性值进行排序。第三步输入第一步得出的结果建立头表。最后根据以上几步的内容建立PF－tree。第二步：产生频繁集调用第一步所建立的频繁项头表和FP-tree,产生频繁集。此功能用AL2函数实现具体流程如下： AL2函数流程 B产生关联规则遍历所有频繁集，求出每个频繁集的所有组合，然后筛选出满足suport（此组合）/support（此频繁集）=置信度的组合。最后将筛选后的组合以及该频繁集减去该组合输出。这就是关联规则。四、程序结果分析首先为了验证程序的正确性，用测试数据测试每个功能模块，将运行结果于预期结果相对比。结果完全一致，确保了程序正确执行。然后对该医院感染的数据挖掘结果进行分析，随着用户输入的支持度与置信度的不同，结果随之变化。例如当输入支持度20，置信度50，则结果如下：结果从结果可看出： a.春季易得上呼吸道疾病 b.夏季易得肠胃疾病。 c. 用过青霉素的病人也可能得呼