基于数据挖掘的骨肿瘤诊断知识自动获取技术.docxVIP

基于数据挖掘的骨肿瘤诊断知识自动获取技术.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据挖掘的骨肿瘤诊断知识自动获取技术 0 快速、有效的建立不同的:mdrbr的数据挖掘方法 随着医院信息基础设施的加快,患者信息数据不断积累,为建立疾病的辅助诊断专家体系奠定了基础。如何快速有效地建立一个完整的数据库是被公认的专家系统的瓶颈。在本研究中,我们使用基于粗厚集理论的挖掘方法,使用mdrbr算法(最小分散理论的搜索方法)来探索受信任的规则,自动获取已知的数据,并自动获得具有价值的信息。 1 压缩和再提取 对已确诊病例数据库进行分析时,在保留基本诊断知识对骨肿瘤疾病诊断的分类能力的基础上,消除重复、冗余以及无用的知识,实现对知识的压缩和再提炼. 2 数据库的简单数学模型 2.1 n矩阵中属性组合数 所谓的最佳属性化简是指: 在保持原有数据的分类能力不降低的情况下,使化简后得到的属性数最少,或最终得到的规则最简,或全部数据化简量最大. 这一过程是基于可辨识矩阵完成的. 可辨识矩阵定义为:令S={U,A}是一个信息系统,U为定义域且U={x1,x2,...,xn}, A是条件属性集合,D是决策属性,a(x)是记录x在属性a上的值,可辨识矩阵可表示为: (cij)=?????{a∈A:a(xi)≠a(xj)}0?1,a(xi)=a(xj)D(xi)≠D(xj)D(xi)=D(xj)D(xi)≠D(xj)(cij)={{a∈A:a(xi)≠a(xj)}D(xi)≠D(xj)0D(xi)=D(xj)-1,a(xi)=a(xj)D(xi)≠D(xj) 其中i,j=1,2,3,...,n 矩阵中属性组合数为1时表明:除属性外,其余条件属性无法将信息表中决策不同的两条记录分出来,核属性之外的其余有用属性应从属性组合数不为1的矩阵元素中分析取得. 2.2 信息过滤算法 在决策系统中进行分类规则挖掘时,使用可信度来对一个规则进行评估. 但是一个具有正确的高可信度的规则并不能保证其是有效的. 当一个信息系统中的信息粒度较高时(规则的统计意义的值往往是很高的),这时我们采用一种基于粗糙集理论的信息过滤算法. 下面给出具体的信息过滤算法: 步骤1:对每一个信息表记录q,计算其等价类集合P({q}); 步骤2:对每一个q的属性值进行排序,考虑其任意两个相邻的属性值qi和qj,并假设其对应的对象是ui和uj:如果[ui]q和[uj]q是决策属性D确定的,并且存在Yi0∈P(D)有[ui]q=Yi0和[uj]q=Yi0,则将属性值qi和qj合并,记为qij. 步骤3:在上述处理后的信息系统中,如果存在有不同的属性值qi和qj,并假设其对应的对象是ui和uj:如果[ui]q和[uj]q是决策属性D确定的,并且存在Yi0∈P(D)有[ui]q=Yi0和[uj]q=Yi0,则将属性值qi和qj合并,记为qij. 步骤4:结束. 2.3 至上的搜索策略 由于属性值的遗漏或噪声,或还存在人们尚未使用的诊断属性,确诊病例中同样的决策属性并不能完全映象到同一分类,而是映象到两个以上的决策类时,这时就会产生默认规则,默认规则尽管不是百分之百正确,在大部分情况下都是可以正确使用的. 在用粗糙集产生分类规则时,我们既要考虑所产生规则的信赖度,也考虑规则的支持度. 如果某条规则的支持度小于给定的阈值,就可以认为这条规则为噪音干扰所致,不作为合理的规则提交,可以先放在备选案例数据库中,供以后进一步分析使用. 医生实际分析问题的过程是一个从粗糙到精密的过程. 即首先考虑较少量的属性,再逐渐增加属性,直至问题的解决. 基于上述分析,我们采用自下而上的搜索策略. 具体算法如下: 输入:信息系统I,支持度阈值0≤μs≤1,信赖度阈值0≤μc≤1 输出:此信息系统上的确定性规则和默认规则集合: 第一步: CNi表示节点Ni上的属性值;RNi表示节点Ni上产生的规则集;算法产生的规则集R=Ф; 第二步: 设底层节点N0所对应的属性集为CN0,在N0节点上产生的规则RN0=CreateRule(U,D,CN0,μs,μc); R=R+RN0 第三步: ①循环:j从1到|D|,执行: 对第i层上的节点Nij上生成规则RNij= CreateRule(U,D, CNij,μs,μc); R=R+RNij; ②生成第i-1层上产生的默认规则的例外(blocks); 第四步: 结束. 3 数据库设计与分析 从唐都医院全军骨肿瘤研究所获得已确诊病例资料100份,使用SQL SERVER2000数据库作为后台数据库系统,建立患者通用信息表、临床表现记录表、化验检查记录表、X线平片图像参数表、造影检查记录表、MRI及CT检查表和病理检查记录表共7个基本数据表. 使用Borland C++ 6.0通用程序设计语言进行编程. 生成的知识库的决策树形式,在知识数据库中存储. 知识自动获取程序模块运行生

文档评论(0)

xcwwwwws + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档