粗糙集理论在肝病辅助诊断中应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
粗糙集理论在肝病辅助诊断中应用.doc

粗糙集理论在肝病辅助诊断中应用   摘要:粗糙集理论主要研究由论域和属性集构成的知识表达系统。医疗诊断中,大量病例、疾病症状和疾病诊断结果构成了一个医学信息决策系统。通过决策属性对条件属性依赖度和重要性分析,发现诊断结果与临床症状之间的关系,提取医学决策规则。实验表明,粗糙集用于肝病辅助诊断方法是正确可行的。   关键词:粗糙集; 肝病诊断;属性重要性;属性依赖度   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)28-6591-02   “大数据”时代,海量的数据中蕴藏着具有决策意义的信息,数据挖掘技术能够从大量的、不完全的、有噪声的、模糊的数据中发现隐含的、未知的、具有潜在价值的信息和知识[1]。在众多数据挖掘技术中,粗糙集理论和方法在处理不精确、不确定、不完整数据时,无须提供问题所需要处理的数据之外的任何先验信息,从中挖发现隐含知识,揭示潜在的规律。目前,它已被广泛应用于人工智能、模式识别、智能信息处理的领域,并取得了丰硕成果。   病毒性肝炎、脂肪肝、酒精肝、肝硬化、肝癌等肝病是威胁人类健康的主要疾病之一。当前,我国有慢性无症状乙肝病毒携带者约1.2亿,慢性乙肝病人约3000万,丙肝感染者约1000万。研究表明,全球80%的原发性肝癌都是由病毒性肝炎引起的。如何有效控制肝脏疾病,预防肝硬化、肝癌的发生,是当前肝病防治领域所面临的重大挑战。   临床医学诊断中,症状数据是疾病诊断的主要依据。根据医学信息数据库中大量诊断病例,以疾病诊断结果作为决策属性,以疾病症状数据为条件属性,发现医学诊断规则和模式,可以辅助临床医学诊断,提高临床诊断的准确性。   1 粗糙集理论   定义1 信息系统 S=(U,A,V,f),U为非空有限集合,称为论域;A为非空有限的属性集合;V为属性值域,V=∪{Va|a∈A};f为U×A→V上的一个信息函数,表示?a∈A,x∈U,f(x,a)∈Va。如果A=C∪D,且C∩D=φ,C为条件属性集,D为决策属性集,信息系统也称为决策系统[2]。   定义2 正域 S=(U,A,V,f),X?U,R?A,属性集R的等价类Ri=[X]R,则X的R下近似R*(X)和正域POSR(X)定义为:   R*(X)=∪{Ri| Ri∈U/R且Ri?X)}   POSR(X)= R*(X)   决策系统S=(U, C∪DA,V,f),决策属性D在条件属性C下的正域定义为:   POSC(D)=∪{C*(Xi)| Xi∈U/D}   POSC(D)表明根据C进行的划分U/C,能够确切划入U/D中元素的集合。   定义3 属性依赖度 决策属性D对条件属性子集P?C的依赖度定义为:   k=?P(D)=|POSP(D)|/|U|   |?|表示集合中元素的个数。k=1,表示根据条件属性P集,可以对U中所有数据准确分类;0k1,表示根据条件属性集P,只能将POSP(D)中数据准确分类;k=0,表示根据条件属性P集,不能对U中所有数据准确分类。   定义4信息熵 决策系统S=(U, C∪D,V,f),U/C={X1, X2,...,Xm},U/D={Y1, Y2,...,Yn},则条件属性集C的信息熵H(C)和决策属性集D的信息熵H(D)以及D相对于C的条件信息熵H(D|C)分别定义为:   [H(C)=-i=1mp(Xi)log(p(Xi))]   [H(D)=-j=1np(Yj)log(p(Yj))]   [H(D|C)=-i=1mp(Xi)j=1np(Yj|Xi)log(p(Yj|Xi))]   其中p(Xi)=| Xi|/|U|,p(Yj)=| Yj|/|U|,p(Yj|Xi)=| Yj∩Xi|/| Xi|。   文[3]给出 H(D|C)=H(D∪C) - H(C)   定义5 属性重要性   依据依赖度的变化定义:S=(U, C∪D,V,f),?c∈C的重要性定义为:   SFG(c,C-{c},D)= ?C(D)-?C-{c}(D)   依据信息熵定义:SFG(c,C-{c},D)=H(D|C-{c}) - H(D|C)   决策系统即决策表中每一行都对应一条决策规则,如何得到约简的决策规则集是研究的目的。决策规则的约简是通过属性和属性值约简实现的,消去C中不重要的属性和冗余的属性值,简化决策规则。   2 粗糙集在医学决策表中应用   (c9) 正常、乏力;是否乙肝(d) 是、否。   随机从表1中抽取200条记录构成论域U,|U|=200,条件属性集C={c1,c2,c3, c4,c5,c6,c7,c8,c9},决策属性集D={d}。另外20条记录构成测试样本集V。   用结构化查询语言SQL的select

文档评论(0)

guan_son + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档