一种特征子空间集成在dna微阵列分类中的应用.docxVIP

一种特征子空间集成在dna微阵列分类中的应用.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种特征子空间集成在dna微阵列分类中的应用 0 基于微阵列数据的集成分类方法 微丝采集又称基因芯轴,是一种新兴而重要的生物学技术。自T.R.Golub等于1999年发表了第一篇采用微阵列数据分类急性白血病亚型的文章以来,不同知识领域的人提出了大量实用、有效的数据挖掘与分析方法。这些方法主要集中在两个方面:①如何提取与疾病的发生、发展密切相关的特征基因,用以辅助疾病的诊断及药物的快速开发;②如何设计精确的分类模型,以迎合实际临床诊断的需要。遗憾的是,由于微阵列数据高维小样本的特性,使得传统的模式分类方法很难获得理想的分类结果。为此,在近几年来,研究人员开始更多地关注于分类性能更好、鲁棒性更强的集成分类方法。 目前,已有很多基于微阵列数据的集成分类方法被报道,这些方法主要是围绕着如何提高集成中基分类器的差异来展开的:M.Dettling将两种最经典的集成分类方法Bagging与Boosting相结合,从而提出了BagBoosting方法,该方法结合了二者的优点,与二者相比性能更优;A.Bertoni等将T.Ho提出的随机子空间集成方法应用于微阵列数据分类领域,并取得了比单分类器更好的识别效果;H.Hu等使用完全不同的基因来构造多个C4.5分类器,从而增加了个体间的差异,但由于个体分类器性能下降,使得最终的识别效果并不理想;Y.H.Peng首先采用K-means方法将判别空间相似的分类器进行聚类,然后在每个聚类中挑选出一个分类器进行集成,其优点是在增加了基分类器间差异的同时,减少了存储的开销;文献均采用优化的算法在大量的基分类器中选出最优的组合来进行集成,其缺点在于时间复杂度高,且容易产生过适应的现象。 上述方法都存在着一个共性的问题,即分类准确率低。为此,本文借鉴文献的思想提出了一种新的微阵列数据集成分类方法——特征子空间集成分类方法。该方法首先采用层次聚类与信噪比特征选择策略将原始训练样本集映射到一个非冗余的特征基因空间,然后随机抽取一些特征子空间构成训练样本子集,并应用支持向量机来训练基分类器,最后采用多数投票的方式决定测试样本的类属。在4个标准微阵列数据集上的实验结果表明:与其他的集成分类方法相比,本文方法具有更好的分类性能。 1 判别xl 设一个微阵列数据集由N个样本组成,每个样本包括M个基因,则数据集可以描述为如下形式:S={(xi,yi)|1≤i≤N},其中xi∈RM代表第i个样本,yi∈{1,2,…,C}为样本i的类别标签。分类任务就是要在S上建立xi→yi的精确映射函数f,使得在新样本x′∈RM出现时,可以通过f对其类别标签做出判断f(x′)=y′,y′∈{1,2,…,C}。 与单分类器不同,集成分类方法需要在S上构造多个不同的映射函数f1,f2,…,fn,其中n为映射函数的个数。每个映射函数fi输出一个C维二进制向量[di,1,…,di,C],在此向量中,只有一个元素为1,其余为0。若di,j为1,则将样本判为第j类。当为新样本x′分类时,可采用多数投票法判定其类别,如当 n∑i=1di,l=maxCj=1(n∑i=1di,j)(1)∑i=1ndi,l=maxCj=1(∑i=1ndi,j)(1) 成立时,最终将样本判为第l类,即f(x′)=l。 针对构造一个有效的集成分类器问题,A.Krogh和J.Vedelsby指出:集成的泛化误差E等于集成中个体分类器的平均泛化误差ˉEEˉˉˉ与平均差异度ˉAAˉˉˉ之差,即: E=ˉE-ˉA(2)E=Eˉˉˉ?Aˉˉˉ(2) 从式(2)可看出,要想提高集成分类器的性能,需要从两方面着手:一是要保证各个基分类器的准确率,二是要尽量增加它们之间的差异。 2 特征域的集成分类方法 2.1 基于信噪比方法的基因相似度评估 由于DNA微阵列不同于其他的数据载体,它同时检测成千上万个基因在生命体内的表达情况,而在这其中,绝大多数基因都是与分类无关的,即以所谓的噪声基因的形式存在。另外,数据集中还有很多的冗余基因,这些基因严重影响到了微阵列数据分类的准确率,因而有必要将那些与分类密切相关的非冗余基因挑选出来。从而在提高分类准确率的同时还可以降低实验的成本,并且更好地从分子层上解释致病的机理。 为了消除冗余基因,本文首先借鉴Wang Y.H.等的思想,采用层次聚类的方法将表达相似的基因聚为同一类。其中,采用Pearson相关系数作为基因间相似度的评价指标,如给出基因gi与gj,则它们之间的Pearson相关系数计算如下: ΡC(gi,gj)=Ν∑k=1(gik-ˉgi)(gjk-ˉgj)√Ν∑k=1(gik-ˉgi)2√Ν∑k=1(gjk-ˉgj)2(3)PC(gi,gj)=∑k=1N(gik?gˉi)(gjk?gˉj)∑k=1N(gik?gˉi)2ue001?ue000ue000∑k

文档评论(0)

xlwkyc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档