基于数据挖掘的二陈汤类方关联分析_临床医学论文.docVIP

基于数据挖掘的二陈汤类方关联分析_临床医学论文.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据挖掘的二陈汤类方关联分析_临床医学论文.doc

基于数据挖掘的二陈汤类方关联分析_临床医学论文 基于数据挖掘的二陈汤类方关联分析_临床医学论文 作者:杨烨,邢斌,高成勉,车立娟 【关键词】 数据挖掘;二陈汤;关联分析 方剂是历代医家临证经验的结晶,经数千年临床实践,其数量已突破十万。面对海量资源,如何进行高效和实效的研究,是一个令人困扰的问题。而从已有数据中提取模式、提高已有数据的内在价值为目的的医学数据挖掘技术的出现,为解决这一问题提供了新的方法和思路。应用数据挖掘技术进行中医基础理论研究、中医临床研究以及计算机辅助医学知识发现系统研究都取得了令人满意的结果[1-4]。我们则尝试应用数据挖掘技术开展对类方的研究。   1 相关知识   1.1 支持度与置信度 数据挖掘是指使用自动化或半自动化的工具对现有数据 进行分析并挖掘出人们感兴趣的隐含的模式,这些模式可以是决策树、规则、聚类或者简单的数学公式。关联分析是一种常见的数据挖掘任务,也叫购物篮分析。关联的任务有2个,即找出频繁项集和关联规则。频繁项集常常被作为频数分析的手段来了解资料的分布情况。项集(itemset)是一组项,每个项都是一个属性值,比如项集{陈皮,半夏}。频繁项集是在数据集中出现频率相当高的那些项集,项集出现频率的域值是使用支持度(Surport)来定义的。项集{木通,黄芩,甘草,车前子}的支持度是指同时包含这4味药物的方剂数占考察样本中所有方剂数的比率,用来考察项集在样本中的普遍性。概率(Probability,记为P)是关联规则的属性。规则A->B的概率是使用项集{A,B}的支持度除以{A}的支持度计算的,该概率在数据挖掘中称置信度(Confidence)。置信度可用公式(1)来度量。 关联规则反映一个事务与其他事务之间的相互依存性和关联性。在进行关联规则挖掘之前需要对置信度指定最小值,表示用户只对某些规则感兴趣。 重要性(Importance)也称兴趣度或者增益,规则的重要性用公式(2)定义 如果重要性为0,则A和B没有任何关联。如果重要性大于0,表示当A为真时,B的概率会上升。如果重要性小于0时,表示当A为真时,B的概率会下降。   1.2 Apriori算法的基本思想   关联规则算法就是相关性计数引擎。Microsoft关联规则算法属于Apriori关联规则算法家族[5],该算法是一种最有影响的挖掘关联规则频繁项集的算法,它利用频繁项集性质的先验知识,使用一种称作逐层搜索的迭代方法k-项集,用于搜索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要扫描数据库一次[6]。   2 研究步骤    2.1 数据准备 确定二陈汤类方,包括确定中心方剂、设定相似条件和在《中医方剂大辞典》范围内查找二陈汤类方元三步,具体方法和过程参见文献[7]。根据邢氏[8]对方剂和处方概念的诠释,最后得到462张处方。   2.2 挖掘数据库构建 本次研究以Microsoft SQL Server 2005 Analysis Services(SSAS)为数据挖掘工具。 根据数据分类的情况,采用已规范的数据,构建二陈汤类方数据库,包括二陈汤类方信息表、药物组成表、中医病名表、症状表、推导病因表、病位表。各表的字段分别为:二陈汤类方信息表(大辞典编号,方名);药物组成表(大辞典编号,中药);症状表(大辞典编号,症状);中医病名表(大辞典编号,中医病名);推导病因表(大辞典编号,推导病因);病位表(大辞典编号,病位)。 每张表的逻辑主键均为中医方剂大辞典编号(在字段名中为大辞典编号),二陈汤类方信息表作为源(主键)表,其他表为目标(外键)表。关系如图1所示。在进行数据挖掘时,二陈汤类方信息表作为事例表,其他表作为嵌套表。   3 研究结果 以下挖掘结果均是在支持度=10%、置信度=80%的参数设置下得到的。个别另外声明的除外。   3.1 频繁项集   (见表1~表3)表1 二陈汤类方用药频繁项集(略)表2 二陈汤类方症状频繁项集(略)表3 病位、推导病因频繁项集(略) 3.2 关联规则   3.2.1 症状与药物关联分析   6个高频症状与核心药物半夏、陈皮、茯苓、甘草高度相关,见图2。   3.2.2 症状与病位、推导病因的关联规则   通过对二陈汤类方的症状与推导病因、病位的关联规则分析发现,与推导病因、病位有关联意义的症状有10组。见表4。表4 症状与推导病因、病位的关联分析(略)   3.2.3 中医病名与药物关联分析   通过对中医病名与药物的关联分析发现,某些中医病名与以半夏、陈皮、茯苓、甘草4味药为基础的药物加味有高度关联。见表5。 表5 中医病名与药物关联(略)   

您可能关注的文档

文档评论(0)

619731806 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档