基因表达谱的复杂网络研究.pdfVIP

  • 8
  • 0
  • 约3.14万字
  • 约 20页
  • 2019-09-13 发布于江苏
  • 举报
全国第七届研究生数学建模竞赛 全国第七届研究生数学建模竞赛 题 目 基因表达谱的复杂网络研究 摘 要 : 本文采用复杂网络理论,整合基因关联信息和文献中的结果,得到一些关于 结肠癌标志基因的可能的结果。首先利用分类信息指数对数据进行初步筛选,选 出了 314 个基因。对选出的基因分别做肿瘤样本和正常样本的相关系数矩阵,利 用 Kruskal 算法分别对两个相关系数矩阵做最小生成树,然后通过两种方法比较 选出阈值,建立起节点间的连边关系,得到致病前后的两个网络。根据复杂网络 中的相关理论,分别对肿瘤样本和正常样本进行社区划分,最后通过观察两个样 本的网络系统,分析致病前后基因的变化情况,建议了结肠癌的特征基因。 关键字:相关系数矩阵 最小生成树 复杂网络 社区结构 一 问题的重述 癌症起源于正常组织在物理或化学致癌物的诱导下,基因组发生的突变,即 基因在结构上发生碱基对的组成或排列顺序的改变,因而改变了基因原来的正常 分布(即所包含基因的种类和各类基因以该基因转录的mRNA的多少来衡量的表达 水平)。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。 DNA微阵列 (DNA microarray),也叫基因芯片,是最近数年发展起来的一种 能快速、高效检测DNA片段序列、基因表达水平的新技术。它将数目从几百个到 2 上百万个不等的称之为探针的核苷酸序列固定在小的 (约1cm )玻璃或硅片等 固体基片或膜上,该固定有探针的基片就称之为DNA微阵列。根据核苷酸分子在 形成双链时遵循碱基互补原则,就可以检测出样本中与探针阵列中互补的核苷酸 片段,从而得到样本中关于基因表达的信息,这就是基因表达谱,因此基因表达 谱可以用一个矩阵或一个向量来表示,矩阵或向量元素的数值大小即该基因的表 达水平。 随着大规模基因表达谱 ( Gene expression profile, 或称为基因表达分 布图) 技术的发展,样本类各种组织的正常的基因表达已经获得,各类病样本 的基因表达分布图都有了参考的基准,因此基因表达数据的分析与建模已经成为 生物信息学研究领域中的重要课题。如果可以在分子水平上利用基因表达分布图 准确地进行肿瘤亚型的识别,对诊断和治疗肿瘤具有重要意义。因为每一种肿瘤 都有其基因的特征表达谱。从DNA 芯片所测量的成千上万个基因中,找出决定样 本类别的一组基因 “标签”,即 “信息基因” (informative genes )是正确识 别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也为抗癌药物的研 制提供了捷径。 通常由于基因数目很大,在判断肿瘤基因标签的过程中,需要剔除掉大量“无 关基因”,从而大大缩小需要搜索的致癌基因范围。事实上,在基因表达谱中, 一些基因的表达水平在所有样本中都非常接近。例如,不少基因在急性白血病亚 型 (ALL,AML)两个类别中的分布无论其均值还是方差均无明显差别,可以认为这 些基因与样本类别无关,没有对样本类型的判别提供有用信息,反而增加信息基 因搜索的计算复杂度。因此,必须对这 “无关基因” 进行剔除。经过10余年的 努力,在基因表达谱分析方面取得了长足的进展,但是仍然有很多基本的问题没 有解决,主要有下边几个方面, (1) 由于基因表示之间存在着很强的相关性,所以对于某种特定的肿瘤,似乎 会有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相 关的突变基因数目很少。如何从上述观点出发,选择最好的分类因素? (2) 相对于基因数目,样本往往很小,如果直接用于分类会造成小样本的学习 问题,如何减少用于分类识别的基因特征是分类问题的核心,事实上只有 当这种特征较少时,

文档评论(0)

1亿VIP精品文档

相关文档