- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进的Apriori算法在中医医案分析中的应用.pdf
200 9年12 月 山东师范大学学报( 自然科学版) Dee .2009
第24卷第4期 J our nal o f Sh a ndon g Nor mal Uni v er si t y( Nat ur al Sci enc e) V01.2 4 No.4
改 进 的 pr i or i 算 法 在 中 医 医 案 分 析 中 的 应 用
袁锋1’ 陈守强2 ’
( 1) 山东省工会管理干部学院信息工程系 .250100,济南;2) 山东 中医药大学第二 附属医院,2 5000 1,济南 //第一作者37岁,女,副教授)
摘要为了解决 pr i or i 算法的不足,提出了改进的 pf i of i 算法:进行剪枝侯选项 目集时,采用生成频繁项 目集和删除具有
非频繁子集候选 同时进行的方法来减少多余子项 目集的生成 .改进的 pr i or i 算法大大提高r 频繁项 目集即关联规则生成的效率,
运行时阅不及原算法 的十分之一 ,同时节省厂大量 的存储空问.最后利用改进 的 pr /or /算法对 中医医案数据进行关联规则挖掘 ,
获得r 良好 的效果.
关键词数据挖掘 ;关联规则; —of f 算法;中医医案
中图分类号TP 301 文献标识码 酗:10 .3969 /j .i s en .100 1—4748 .2009 .04 .009
数据挖掘是一种半 自动地从大量的、不完全的、有噪声 的、模糊的、随机 的数据中提取出隐含在其中潜在有用 的信息和知
识的过程 .数据挖掘从数据 中提取人们感兴趣的可用信息和知识,并将提取出来的信息和知识表示成概念、规则、规律和模
式⋯.作为数据挖掘 的一种十分有用的知识模式,关联规则的挖掘算法得到较为广泛的重视和研究,该算法的关键和核心是
生成频繁项目集,如何有效地生成频繁项目集是算法改进方向之一 .
经典的 叫or i 算法在每次生成候选项集后,要返回数据库,并对该候选集是否为频繁项 目集进行判断,这样的高频率查
询操作 ,会导致挖掘效率 降低 .根据这个不足 ,本文提出一种改进的生成频繁项 目集的算法 ,该算法在产生新候选项集后不再
返 回数据库进行判断是否为频繁项 目集 ,而是删除具有非频繁子集 的候选项,直接生成所对应 的频繁项目集.
将改进 的 埘or i 算法应用于 中医医案分析,经过测试数据可以看 出这种方法提高了关联规则挖掘效率.
1 p r i or i 关联规则算法
1.1关联规 则基本术语 设J = {i 。,之,⋯ ,i 。}为数据项集合,D为与任务相关的数据集合 ,也就是一个事务数据库,其中的
每个交易r 是一个数据项子集,其中TC_I ,每个事务都有一个标识符,称为TI D.设 为一个数据项集合,交易r 包含 当且仅
当 £z支持度s是D中包含 OB的事务百分 比,它是概率P( UB) ,即suppor t ( 辛B) =P( UB) ,它描述了 和 曰这两
个物品集的并集在所有的事务中出现的概率.满足最小支持度的项集称之为频繁项集.置信度c为D中包含 的事务中同时
也包含B的百分 比,它是概率P( BI ) ,即conf i dence( =》B)=P( BI ) .同时满足最小支持度阈值和最小置信度周值的规则称
作强规则 .
1 .2 晒or i 算法 州or i 算法是一种最有影响的挖掘关联规则的算法,它使用了频繁项集的所有非空子集都必须是频繁
集 的这一性质.其具体做法是 :扫描数据库一遍统计各数据项 ,从而找 出频繁l 一项集 厶,然后利用£,来挖掘k ,即频繁2一项
集;不断如此循环下去直到无法发现更 多的频繁七一项集为止,每挖掘一层 厶就 需要扫描整个数据库一遍 心】.
pfi of i 算法能够比较有效地产生关联规则,但也存在着以下缺 陷:1) 算法产生太多冗余 的规则.当数据库太大或支持度 、
信任度 阈值太低时产生的规则太多.2) 算法在效率上存在着 问题.主要是因为数据库扫描次数太多,寻找每个七一项集都需
要扫描数据库 一次,共需要扫描数据 库I | }次.
2 改进 pr i or i 算法
笔者针对分析中医医案提出了一种改进的 研丽算
您可能关注的文档
- 攀岩技术体系构建研究.pdf
- 改善建筑设计降低物业管理风险.pdf
- 改性剂对PVC/稻壳粉木塑复合材料性能的影响.pdf
- 摄入体内的化学物质.pdf
- 改良钻颅血肿抽吸治疗高血压急性脑出血34例临床分析.pdf
- 改造男大学生.pdf
- 改革开放以来理论界关于党政关系研究的基本脉络.pdf
- 改革英语教学,培养创新人才——刍议英语教学改革的几点看法.pdf
- 政党文化的研究现状及其思考.pdf
- 政府加强物业监管的五点建议.pdf
- 2024年05月山东交通职业学院招考聘用博士研究生50人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月安徽芜湖市弋江区老年学校(大学)工作人员特设岗位公开招聘2人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东东营河口区教育类事业单位招考聘用22人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东交通职业学院招考聘用100人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东威海职业学院招考聘用高层次人才2人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月安徽石台县事业单位工作人员33人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东滨州市博兴县事业单位公开招聘考察笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月安徽蚌埠固镇县湖沟镇选聘村级后备干部7人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东省安丘市教育和体育局所属事业单位学校公开2024年招考232名工作人员笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东临沂临港经济开发区工作人员(5人)笔试历年典型题及考点剖析附带答案含详解.docx
最近下载
- 草原就是我的家教学设计.docx VIP
- 安徽省黄山市重点名校2023-2024学年中考生物最后冲刺模拟试卷含解析.doc VIP
- 部编一年级下册语文字帖【打印可用】.pdf
- 初二地理生物中考动员主题班会.pptx VIP
- 常州大学2020-2021学年第1学期《西方经济学》期末考试试卷(A卷)含参考答案.docx
- 安徽省临泉重点名校2023-2024学年中考生物对点突破模拟试卷含解析.doc VIP
- 内轴型膝关节设计理念及特点.pdf
- 新人教PEP版小学英语六年级下册期末全册单元复习课件(含专题).ppt
- 2024年党纪学习教育党课.pptx VIP
- 2023安徽省中考生物模拟试卷第一卷(含解析).pdf VIP
文档评论(0)