基因表达数据在肿瘤诊断、基因功能预测中的应用的研究.pdf

基因表达数据在肿瘤诊断、基因功能预测中的应用的研究.pdf

·中文论著摘要· 基因表达数据在肿瘤诊断、基因功能预测中的应用研究 .JL-- .▲上- 刖 吾 后基因组时代应用了大量高通量方法,由此产生了海量的基因表达数据。可 靠准确的分类对于癌症的诊断和治疗至关重要。微阵列的使用可以同时检测每个 样本的上千个基因表达,不但为客观准确的肿瘤分类提供了可能,而且也为临床 医生选择适当形式的治疗提供数据支持。 基因表达数据通常存在基因个数远远大于观察例数的情形,传统的统计分析 方法有时失效,因此有必要分析何时用何法才能获取最有用的信息。虽然已有研 究分析特征基因选择方法并用于肿瘤分类,然而大部分集中于一个方法或单个数 据库,并缺乏统计学基础。因此,有必要使用多个数据库对各种方法的性能进行 系统比较与分析。 随着基因组及后基因组计划的不断开展,越来越多的生物信息被人类不断获 得。合理的利用这些信息不但能有效的抑制噪声的影响,也能够避免单纯根据单 独实验获得的片面信息,但是只有较少的文献意识到先验信息的重要性。 聚类分析是一种有效的数据分析工具,已有研究表明参与同一个生物过程的 基因具有相同的功能,因此对基因表达数据的聚类分析成为基因功能预测的一种 主要方法。然而在聚类分析中,大部分现有方法都忽视了基因的己知功能。随着 基因注释数据库的不断完善,尤其是当数据存在噪声时,在聚类过程中整合己知 基因功能不失为一个明智之举。在聚类分析中通常是需要先定义基因表达距离, 然后再根据此测量距离将基因聚类。如果这个距离单纯从生物实验出发,并没有 考虑已有的先验知识,因此得到的距离就不全面、准确。 目 的 选择合适的特征基因,比较不同方法在基因表达数据肿瘤分类中的优劣;在 肿瘤基因表达数据中加入先验信息,提高肿瘤分类准确性;结合己知的生物学功 能,提高基因表达聚类分析的准确性和解释性。 方法 本研究使用五个经典的基因表达数据库,分别包括二分类肺癌、结肠癌、多 分类肺癌、儿童期肿瘤和脑肿瘤。分别采用最近收缩质心法(PAM),收缩质心的 调整判别分析(SCRDA)和多重比较方法(MTP)选择特征基因,再分别利用所 得到的特征基因集进行判别分析,判别分析方法包括:嫩邻法(KNN)、线性判 缩对角判别分析(SDDA)、最近收缩质心法(PAM)、收缩质心的调整判别分析 (SCRDA)和BP人工神经网络(BP.ANN)。 本研究使用恶性胸膜间皮瘤和肺腺癌基因表达数据库,通过检索Cancer Research杂志报道的部分有关肺腺癌的基因,获得这些基因在原始数据集中的位 置,并进行MTP检验,剔除不显著基因,保留显著基因,再分别与PAM和SCRDA 方法获得的显著基因共同组成特征基因集,然后利用所得到的特征基因集进行判 别分析。 利用积累的基因功能关系,我们提出将已知基因的功能加入一个新的距离矩 阵。这个新距离等于测量距离和功能距离之和。算法分为两步进行;第一步,在 基于距离的聚类分析(如K-中心或系统聚类)中使用新距离。第二步,将上一步 的聚类结果用于功能未知的基因功能预测,判断其是具有已知的功能,还是具有 新功能。 结 果 当基因个数多于样本个数时,传统LDA无法正常执行。从二分类与多分类数 和SCRDA的准确率高于传统LDA方法;在机器学习方法中,SVM的准确率高于 BP.ANN;使用全部基因与部分基因相比,KNN准确率有所下降: 对于利用PAM和SCRDA方法获得基因集后再结合先验信息的分类方法中,只 有少数方法的检验集分类准确率没有得到提高,其它方法都有一定提高,除了PCR 等少数方法外,训练集的分类准确率都得到提高,相应的标准差也随之降低。 模拟试验和对于酵母菌数据的研究证实整合功能距离方法比标准方法更有 效。 2 =口结论J.匕 本研究发现特征基因的选择对于分类方法具有一定影响,PAM方法使用的特 征基因的数目一般要小于SCRDA方法,而后者又要小于MTP

文档评论(0)

1亿VIP精品文档

相关文档