改进的Apriori算法在中医医案分析中的应用.pdfVIP

改进的Apriori算法在中医医案分析中的应用.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进的Apriori算法在中医医案分析中的应用.pdf

200 9年12 月 山东师范大学学报( 自然科学版) Dee .2009 第24卷第4期 J our nal o f Sh a ndon g Nor mal Uni v er si t y( Nat ur al Sci enc e) V01.2 4 No.4 改 进 的 pr i or i 算 法 在 中 医 医 案 分 析 中 的 应 用 袁锋1’ 陈守强2 ’ ( 1) 山东省工会管理干部学院信息工程系 .250100,济南;2) 山东 中医药大学第二 附属医院,2 5000 1,济南 //第一作者37岁,女,副教授) 摘要为了解决 pr i or i 算法的不足,提出了改进的 pf i of i 算法:进行剪枝侯选项 目集时,采用生成频繁项 目集和删除具有 非频繁子集候选 同时进行的方法来减少多余子项 目集的生成 .改进的 pr i or i 算法大大提高r 频繁项 目集即关联规则生成的效率, 运行时阅不及原算法 的十分之一 ,同时节省厂大量 的存储空问.最后利用改进 的 pr /or /算法对 中医医案数据进行关联规则挖掘 , 获得r 良好 的效果. 关键词数据挖掘 ;关联规则; —of f 算法;中医医案 中图分类号TP 301 文献标识码 酗:10 .3969 /j .i s en .100 1—4748 .2009 .04 .009 数据挖掘是一种半 自动地从大量的、不完全的、有噪声 的、模糊的、随机 的数据中提取出隐含在其中潜在有用 的信息和知 识的过程 .数据挖掘从数据 中提取人们感兴趣的可用信息和知识,并将提取出来的信息和知识表示成概念、规则、规律和模 式⋯.作为数据挖掘 的一种十分有用的知识模式,关联规则的挖掘算法得到较为广泛的重视和研究,该算法的关键和核心是 生成频繁项目集,如何有效地生成频繁项目集是算法改进方向之一 . 经典的 叫or i 算法在每次生成候选项集后,要返回数据库,并对该候选集是否为频繁项 目集进行判断,这样的高频率查 询操作 ,会导致挖掘效率 降低 .根据这个不足 ,本文提出一种改进的生成频繁项 目集的算法 ,该算法在产生新候选项集后不再 返 回数据库进行判断是否为频繁项 目集 ,而是删除具有非频繁子集 的候选项,直接生成所对应 的频繁项目集. 将改进 的 埘or i 算法应用于 中医医案分析,经过测试数据可以看 出这种方法提高了关联规则挖掘效率. 1 p r i or i 关联规则算法 1.1关联规 则基本术语 设J = {i 。,之,⋯ ,i 。}为数据项集合,D为与任务相关的数据集合 ,也就是一个事务数据库,其中的 每个交易r 是一个数据项子集,其中TC_I ,每个事务都有一个标识符,称为TI D.设 为一个数据项集合,交易r 包含 当且仅 当 £z支持度s是D中包含 OB的事务百分 比,它是概率P( UB) ,即suppor t ( 辛B) =P( UB) ,它描述了 和 曰这两 个物品集的并集在所有的事务中出现的概率.满足最小支持度的项集称之为频繁项集.置信度c为D中包含 的事务中同时 也包含B的百分 比,它是概率P( BI ) ,即conf i dence( =》B)=P( BI ) .同时满足最小支持度阈值和最小置信度周值的规则称 作强规则 . 1 .2 晒or i 算法 州or i 算法是一种最有影响的挖掘关联规则的算法,它使用了频繁项集的所有非空子集都必须是频繁 集 的这一性质.其具体做法是 :扫描数据库一遍统计各数据项 ,从而找 出频繁l 一项集 厶,然后利用£,来挖掘k ,即频繁2一项 集;不断如此循环下去直到无法发现更 多的频繁七一项集为止,每挖掘一层 厶就 需要扫描整个数据库一遍 心】. pfi of i 算法能够比较有效地产生关联规则,但也存在着以下缺 陷:1) 算法产生太多冗余 的规则.当数据库太大或支持度 、 信任度 阈值太低时产生的规则太多.2) 算法在效率上存在着 问题.主要是因为数据库扫描次数太多,寻找每个七一项集都需 要扫描数据库 一次,共需要扫描数据 库I | }次. 2 改进 pr i or i 算法 笔者针对分析中医医案提出了一种改进的 研丽算

您可能关注的文档

文档评论(0)

mzi9603 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档