关联规则在小样本临床资料中的应用.docVIP

关联规则在小样本临床资料中的应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则在小样本临床资料中的应用.doc

  关联规则在小样本临床资料中的应用 【摘要】 目的:探索关联规则在小样本临床资料中的应用。方法:采用数据挖掘技术中的关联规则挖掘方法,以列联表的确切概率和可信度的提高来进行规则剪除,结合实例并与 Logistic 回归分析进行比较。结果:应用关联规则分析冠心病发生的危险因素同 Logistic 回归分析的结果相近,但关联规则分析可以提供更多的信息。结论:使用 Fisher 确切概 率法作为度量函数对小样本资料进行关联规则分析是可行的,可以弥补 Logistic 逐步回归应用的缺陷,又可以较全面地揭示资料中蕴涵的信息。 【关键词】 关联规则;Logistic 回归;可信度 〔Abstract〕 Objective To explore the application of association rules in clinical data of small sample. Methods Using the analysis of association rules of data mining, and the pruning of association rules is based on Fishers exact test and the improvement of the confidence, and paring odel through clinical data. Results The result of association rules analysis to dangerous factors of the coronary occurrence is close by Logistic regression model, but association rules analysis can provide more information. Conclusion Using Fishers exact test as the measure of association rules analysis of the small database, on the one hand it could overe the limitation of Logistic regression, on the other hand it could discover the full information of the data. 〔Key iner(以下简称 SAS/ EM)模块中的关联规则节点(Association Node)进行规则挖掘是针对事务数据库进行操作的,所以在挖掘之前先将数据进行转化,见表 2。 Attribute 代表变量值的集合,对于如 name 一类的变量,因为对挖掘信息意义不大故省去,对于分类变量按其取值分为几个变量值如 sex 表示为 Sex_m 和 Sex_f,对于计量变量则将其离散再按分类变量对待。 1.2 规则的实现 SAS/EM 采用 Apriori 算法,利用 k - 项集来探索(k+1)- 项集。然后再根据预先设定的最小支持度和可信度产生规则。所以,主要确定三个参数即产生规则的项集最大数目(items)、最小支持度(min_sup)和最小可信度(min_conf)。输出结果中包含满足要求的所有规则以及每条规则的支持度(sup)、可信度(conf)、期望可信度(exp_conf)〔规则后件项的期望概率即P(B)〕、作用度(lift)(可信度与期望可信度的比值)等一些信息。 1.3 规则的剪除 对于规则,可以表达为列联表形式如下所示。 A 表示规则前件中变量值的组合, 表示在所有数据中不满足规则前件的部分,B 表示规则后件中变量值的组合, 表示数据中不满足规则后件的部分,f11、f10、f01、f00 分别表示 A 与 B、A 与 B、A 与B、A 与 B 共同发生的频数。因为是小样本资料,所以判定属性 A 与 B 是否有统计学上的关联,可根据列联表的确切概率。如果属性 A 与 B 之间具有某种关联,其关联的密切程度如何?可通过 计算 Pearson 列联系数 C。1 表示完全相关。 本研究的方法:首先使用列联表的确切概率法检验所产生的规则中的所有两项规则,即规则的前件和后件均为一项,本研究中使用 SAS 软件计算可以直接得到列联表的确切概率 P 值和列联系数 C。根据研究者预定的判断界值,得到相对有意义的规则,再对这些规则利用列联系数 C 进行排序,对于变量较多的数据来说,这点很重要,因为产生的规则很多的情况下,研究者不可能对这些规则都进行研究。 当两项规则确定后,在此基础上,进一步筛选多项规则,对于多项规则的筛选主要根据是可信度的提

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档