基因微阵列特征择与分类方法研究.pdfVIP

  • 1
  • 0
  • 约 88页
  • 2018-04-12 发布于贵州
  • 举报
基因微阵列特征择与分类方法研究

Thesisfor MaSter Degrce 摘 要 本论文依托湖南省杰出青年基金项目“DNA微阵列基因选择及肿瘤检测方法 研究”,以基因微阵列数据为主要研究对象,对特征选择及分类算法展开研究。 20世纪90年代末,生物芯片技术随着人类基因组的研究应运而生。它是一种 融微电子学、生物学、物理学、化学、计算机科学于一体的高度交叉的新技术, 具有重大的研究价值。DNA微阵列 DNA 酸探针互补杂交技术原理开发的。由于基因芯片能够检测细胞基因表达水平,并 且具有高速度、高通量、集约化的特点,所以可以一次性对大量序列进行检测和 基因分析,从而得到高维的DNA微阵列基因表达数据。DNA微阵列数据为通过数 据挖掘在基因水平进行疾病诊断、基因治疗等提供了前提和可能性。在当前的肿 瘤分类诊断中,肿瘤的诊断高度依赖于病理学工作者对肿瘤组织的主观判断,缺 乏准确的诊断依据。众所周知,肿瘤的产生是由于病变组织的相关的基因发生了 基因突变,而突变基因的表达水平与正常基因的表达水平是不一样的。因此即使 疑似病变组织没有显著变化 即缺乏常规的病理学外观特征 ,利用基因表达谱也 可以对之做出早期诊断,从而可以提高肿瘤诊断的精度。另外,利用基因芯片, 还可以根据基因表达谱的变化来区分形态上相似的肿瘤,这样有助于精确识别肿 瘤类型,并根据相应的病变基因对不同类型的肿瘤开发不同的药物 如基因靶向 药物 ,有助于提出准确的治疗手段,从而增大治愈肿瘤的机会。 但是由于DNA微阵列是某组织或细胞中所有基因的表达数据,维数通常达到 几千或上万维,而在实际临床治疗中病例样本一般较少,对于一些比较罕见的疾 病,样本数更少,从而导致基因微阵列数据维数远高于样本数目。这是模式识别 领域中典型的高维小样本问题 Small Size,SSS 。高维小样本数据的学习 Sample 和分类一直是模式识别中难点问题。主要原因在于: 1 超高维数容易导致维数 灾难 Curseof 数据一般样本数极少,使得传统的基于概率的学习方法 如贝叶斯学习理论 失 去效能,无法进行有效的分类识别; 3 在高维数据中,大多数特征是噪声特征, 容易掩盖数据本身的结构 如类间差别信息等 ,从而造成分类学习性能严重下降。 因此在基因微阵列数据分析中, 1 采用适合小样本高维数据的学习算法并提高 其学习和分类的性能; 2 对高维数据进行特征选择以降低其数据维数或者准确 确定相关致病基因是基因微阵列数据分析的两个核心任务。 无论是肿瘤检测还是基因选择,分类都是最核心的问题。近年来,研究人员 ReSearchonFeaturcSelection柚dClaSs讯cationBasedonDNA Micmarray Fisher 提出了多种分类学习算法,如k.NN,C4.5,多层感知器,KFDA Kemel DiscriminaIlt 定最优分类超平面,实现了结构风险最小化原则,有效克服了过学习 Ovef6tting 问题,具有良好的泛化性能。同时,由于SVM的分类超平面通过最大化间隔得到, 因而消除了对数据正态分布的要求,因而特别适合DNA微阵列等小样本高维数据 的学习和分类。SVM的另外一大优势是通过采用核函数 KemelFunction ,将线 性不可分数据隐式映射到高维线性特征空间中,然后利用线性分类技术进行分类, 很好地解决了非线性数据的分类问题。基于这些优点,SVM在基因表达数据分类 问题上得到了广泛的应用。 尽管支持向量机在小样本问题上表现出了良好的性能,但是如何有效确定支 Method 的典 持向量机的模型是一个挑战性问题。支持向量机是核方法 Kernel 型算法,然而对于同一数据,核函数以及核函数参数的选择,对支持向量机的分 类性能有很大影响,因而需要对SVM参数进行调整,以选择最优的SVM参数。参 数选择又称为模型选择 ModelSelection ,是模式识别研究的重要内容。由于支 问题,一般存在多个局部极值,因而难以确定全局最优模型。传统的网格法 Grid Search 利用交叉验证 Cross 简单,能够确定一个较好的模型,但是对于较多参数的模型选择问题,计算代价 较高。梯度搜索法 Gradient 模型,该方法具有计算代价小,适合多参数优化的场合。但是鉴于模型选择的非 凸性,以及梯度算法对初值的敏感性,基于梯度算法的模型选择容易陷入局部极 值问题。更为严重的是,如果初始参数点没有得到正确的设置,可能根本无法得 到一个合适的模型。针对多模优化问题,运用进化算法 EvolutionaryAlgorithms 求解是一个有效的解决途径,然而进化算法一般都具有早熟和收敛速度慢的缺点, 而且通常只能收敛到一个局部

文档评论(0)

1亿VIP精品文档

相关文档