基因表达谱数据的特征选择与分类算法研究-计算机技术专业论文.docxVIP

基因表达谱数据的特征选择与分类算法研究-计算机技术专业论文.docx

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因表达谱数据的特征选择与分类算法研究-计算机技术专业论文

基因表达谱数据的特征选择与分类算法研究摘 基因表达谱数据的特征选择与分类算法研究 摘 要 基因芯片技术能够快速的测量成千上万条基因的表达。随着微阵列技术广泛 应用到肿瘤研究中,产生了大量高维小样本的基因表达谱数据。利用基因表达谱 数据进行生物信息挖掘是生物信息领域的研究重点。如何从海量的基因表达谱数 据中挑选冗余度小,分类能力好的特征基因,挖掘出有用的信息、更加清楚的认 识肿瘤在基因层面的意义,对肿瘤的致病机理分析、临床诊断与治疗起到至关重 要的作用。因此,寻找合适的数据处理方法来对基因表达谱进行数据挖掘成为一 个亟待解决的难题。本文的研究工作主要包括两个方面: 在特征选择方面,针对基因表达谱数据的高维、高噪声、高冗余的特点,从 特征本身出发,提出了一种基于稀疏表示和最大相关最小冗余的基因选择方法。 该算法分为两个层面:首先,利用稀疏表示系数来计算基因对于类别的重要程度, 提取排名靠前的基因,删除不相关基因,降低数据维度;然后,稀疏表示系数用 来计算在其余特征的影响之下,基因与基因之间的相关性。最后,使用改进的最 大相关最小冗余的搜索策略对特征基因进行挑选,剔除冗余基因,获得最终的特 征基因子集。这种方法不同于以往的将特征基因孤立看待的特征选择方法,充分 考虑了在其他基因的影响之下,复杂的生物关系之中各特征之问的相互关系,能 够有效的挑选特征基因,提高分类精度。 在分类器方面,提出了一种基于加权元样本的核稀疏表示分类方法。在近几 年,稀疏表示被证明具有良好的分类能力。针对稀疏表示分类方法不能很好的处 理同方向分布的数据以及元样本提取过程中人为参数的设置影响实验结果这两个 问题,本文提出一种基于加权元样本的核稀疏表示方法。首先,使用SVD分解每 一个类的原始样本矩阵,通过矩阵变换的方式构造加权元样本矩阵,获得稀疏表 示分类的字典。其次,用核稀疏表示的方法将其映射到多维空间,使得新的样本 特征能够线性可分;最后,通过计算得到稀疏表示系数,使用残差比较来对样本 进行分类。通过实验对比,与三种不同的分类方法相比较,证明了该方法的有效 性。 关键字:基因表达谱;特征选择;肿瘤分类:稀疏表示;MRMR;加权元样本 II 万方数据 工程硕士学位论文Abstract 工程硕士学位论文 Abstract Gene chip technology can quickly measure the expression of thousands of genes. With the widely application of microarray technology to cancer research,a lot of gene expression data with the characteristics of high dimension and small samples has been generated。The use of gene expression data for biological information mining is a research emphasis in the field of biological information.How to choose the gene subset with small redundancy and good classification ability from the vast amounts of gene expression profile data and dig out the useful information is a very important topic.This is very important to have a clear understanding of the significance of tumor at the genetic level and very useful to the analysis of the pathogenesis,clinical diagnosis and treatment of tumor.So further improvement iS needed for the new methods to make them more adapted to the characteristics of tumor data in order to get better classification accuracy.This study is mainly includes two aspects: In terms of feature selection,Aiming that the cha

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档