粗糙集理论在肝病辅助诊断中应用.docVIP

下载本文档

0
0
约 7页
2016-09-11 发布于北京
举报
版权申诉

粗糙集理论在肝病辅助诊断中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

粗糙集理论在肝病辅助诊断中应用.doc

粗糙集理论在肝病辅助诊断中应用　　摘要：粗糙集理论主要研究由论域和属性集构成的知识表达系统。医疗诊断中，大量病例、疾病症状和疾病诊断结果构成了一个医学信息决策系统。通过决策属性对条件属性依赖度和重要性分析，发现诊断结果与临床症状之间的关系，提取医学决策规则。实验表明，粗糙集用于肝病辅助诊断方法是正确可行的。　　关键词：粗糙集；肝病诊断；属性重要性；属性依赖度　　中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2014）28-6591-02 　　“大数据”时代，海量的数据中蕴藏着具有决策意义的信息，数据挖掘技术能够从大量的、不完全的、有噪声的、模糊的数据中发现隐含的、未知的、具有潜在价值的信息和知识[1]。在众多数据挖掘技术中，粗糙集理论和方法在处理不精确、不确定、不完整数据时，无须提供问题所需要处理的数据之外的任何先验信息，从中挖发现隐含知识，揭示潜在的规律。目前，它已被广泛应用于人工智能、模式识别、智能信息处理的领域，并取得了丰硕成果。　　病毒性肝炎、脂肪肝、酒精肝、肝硬化、肝癌等肝病是威胁人类健康的主要疾病之一。当前，我国有慢性无症状乙肝病毒携带者约1.2亿，慢性乙肝病人约3000万，丙肝感染者约1000万。研究表明，全球80%的原发性肝癌都是由病毒性肝炎引起的。如何有效控制肝脏疾病，预防肝硬化、肝癌的发生，是当前肝病防治领域所面临的重大挑战。　　临床医学诊断中，症状数据是疾病诊断的主要依据。根据医学信息数据库中大量诊断病例，以疾病诊断结果作为决策属性，以疾病症状数据为条件属性，发现医学诊断规则和模式，可以辅助临床医学诊断，提高临床诊断的准确性。　　1 粗糙集理论　　定义1 信息系统 S=（U，A，V，f），U为非空有限集合，称为论域；A为非空有限的属性集合；V为属性值域，V=∪{Va|a∈A}；f为U×A→V上的一个信息函数，表示?a∈A，x∈U，f（x，a）∈Va。如果A=C∪D，且C∩D=φ，C为条件属性集，D为决策属性集，信息系统也称为决策系统[2]。　　定义2 正域 S=（U，A，V，f），X?U，R?A，属性集R的等价类Ri=[X]R，则X的R下近似R*（X）和正域POSR（X）定义为：　　R*（X）=∪{Ri| Ri∈U/R且Ri?X）} 　　POSR（X）= R*（X）　　决策系统S=（U， C∪DA，V，f），决策属性D在条件属性C下的正域定义为：　　POSC（D）=∪{C*（Xi）| Xi∈U/D} 　　POSC（D）表明根据C进行的划分U/C，能够确切划入U/D中元素的集合。　　定义3 属性依赖度决策属性D对条件属性子集P?C的依赖度定义为：　　k=?P（D）=|POSP（D）|/|U| 　　|?|表示集合中元素的个数。k=1，表示根据条件属性P集，可以对U中所有数据准确分类；0k1，表示根据条件属性集P，只能将POSP（D）中数据准确分类；k=0，表示根据条件属性P集，不能对U中所有数据准确分类。　　定义4信息熵决策系统S=（U， C∪D，V，f），U/C={X1， X2，...，Xm}，U/D={Y1， Y2，...，Yn}，则条件属性集C的信息熵H（C）和决策属性集D的信息熵H（D）以及D相对于C的条件信息熵H（D|C）分别定义为：　　[H（C）=-i=1mp（Xi）log（p（Xi））] 　　[H（D）=-j=1np（Yj）log（p（Yj））] 　　[H（D|C）=-i=1mp（Xi）j=1np（Yj|Xi）log（p（Yj|Xi））] 　　其中p（Xi）=| Xi|/|U|，p（Yj）=| Yj|/|U|，p（Yj|Xi）=| Yj∩Xi|/| Xi|。　　文[3]给出 H（D|C）=H（D∪C） - H（C）　　定义5 属性重要性　　依据依赖度的变化定义：S=（U， C∪D，V，f），?c∈C的重要性定义为：　　SFG（c，C-{c}，D）= ?C（D）-?C-{c}（D）　　依据信息熵定义：SFG（c，C-{c}，D）=H（D|C-{c}） - H（D|C）　　决策系统即决策表中每一行都对应一条决策规则，如何得到约简的决策规则集是研究的目的。决策规则的约简是通过属性和属性值约简实现的，消去C中不重要的属性和冗余的属性值，简化决策规则。　　2 粗糙集在医学决策表中应用　　（c9）正常、乏力；是否乙肝（d）是、否。　　随机从表1中抽取200条记录构成论域U，|U|=200，条件属性集C={c1，c2，c3， c4，c5，c6，c7，c8，c9}，决策属性集D={d}。另外20条记录构成测试样本集V。　　用结构化查询语言SQL的select