基因芯片数据分方法的比较研究.pdfVIP

  • 2
  • 0
  • 约2.91万字
  • 约 24页
  • 2017-10-05 发布于贵州
  • 举报
基因芯片数据分方法的比较研究

·中文论著摘要· 基因芯片数据分析方法的比较研究 刖 吾 基因微阵列技术能在一次实验中衡量数以千计的基因的表达强度,是分子生 物学和医学一个强有力的工具,可以解决许多重要问题在生命科学领域。基因芯 片技术一个主要的应用是寻找样本之间差异表达显著的基因,并在这些差异表达 显著的基因的基础之上进行分类,进而希望用较少的基因个数获得较好的分类效 果,这对临床诊断、治疗以及对功能基因的研究都有重要的意义。 制约基因芯片技术发展的主要问题是缺乏良好的数据分析工具。微阵列数据 分析困难有几个原因。首先,小样本量及相对大量的基因往往造成同时出现低灵 敏度和低特异性的情形。第二,基因表达数据是基于传统的统计方法出发,而不 是从实际的数据的非线性角度出发。也就是获得的基因表达数据所具有数据量大、 维数高、样本量小、非线性的四大特点制约了其进一步发展。广义似然比检验 (GLRT)具有对多变量、低表达、非线性数据分析灵敏的特点,其参数为-2lgA, 该参数近似的服从z2(1)分布,这样其误差就被有效的控制住;而支持向量机(svM) 能够较好的解决小样本、非线性、高维数、局部极值的问题,已在模式识别、非 线性建模等领域得到广泛应用。本研究采用广义似然比检验与支持向量机相结合 的方法先提取差异表达显著的基因然后在此基础上进行分类和优化分类。 材料与方法 本研究采用的数据集来自于Golub在1999年使用高密度寡核苷酸阵列检测得 基因芯片数据。训练集包括38个样本,其中27个是ALL,11个是AML。测试 集包括34个样本,其中20个是ALL,14个是AML。 以训练集为基础使用广义似然比检验鉴别出差异显著的基因,然后用生物学 知识初步验证鉴别的有效性。再在差异显著的基因的基础上构建3种核函数的支 持向量机模型、神经网络及Golub的领域分析模型。将训练集和测试集的输入和 输出的数据进行归一化后,利用软件Matlab7.0带入以上的模型。采用正确分类的 百分率评判预测效果。选一个好的分析模型进行分类优化。 结 果 通过广义似然比检验鉴别出50个差异显著的基因,用生物学知识验证鉴别得 到的基因大都与白血病相关,只有极少的基因的相关文献报导较少。利用多项式 SVM、神经网络和Golub的领域分析模型对训练集 SVM、径向基SVM、Sigmoid 的分类正确率分别为100%、100%、89.5%、94.7%、94.7%,对测试集的分类正确 前40、30、20、15、10、8个基因的训练集和测试集分类的正确率分别为100%、 85.3%。 三日结论◆匕 广义似然比检验具有对多变量、低表达、非线性数据分析灵敏的特点,所以 本研究用于差异基因的鉴别。其鉴别结果结合白血病分子标志物研究现状分析, 与不同类型白血病的关系显著。只有极少的基因的相关文献报导较少,这些基因 可能够为鉴别AML和创LL提供一些新的分子标志物。 支持向量机着重用于解决小样本、非线性、高维数、局部极值的问题,已在 模式识别、非线性建模的领域得到广泛应用。本研究的前两种非线性核函数分类 器的识别结果基本一致,说明了不同的非线性核函数(Sigmoid函数除外)的支持向 量机表现出的性能大致相同,最终采用分类效果最好的径向基SVM。分类优化的 结果认为选取前15个基因的时候分类的效果较好。 关键词 基因芯片;白血病;广义似然比检验;支持向量机 2 英文论著摘要 ofstatisticalmethodsfor Comparativestudy ● l ‘ data mlcroarrayanalysis Introduction Gene is of

文档评论(0)

1亿VIP精品文档

相关文档