基因表达谱的复杂网络研究.pdfVIP

下载本文档

8
0
约3.14万字
约 20页
2019-09-13 发布于江苏
举报

基因表达谱的复杂网络研究.pdf

全国第七届研究生数学建模竞赛全国第七届研究生数学建模竞赛题目基因表达谱的复杂网络研究摘要：本文采用复杂网络理论，整合基因关联信息和文献中的结果，得到一些关于结肠癌标志基因的可能的结果。首先利用分类信息指数对数据进行初步筛选，选出了 314 个基因。对选出的基因分别做肿瘤样本和正常样本的相关系数矩阵，利用 Kruskal 算法分别对两个相关系数矩阵做最小生成树，然后通过两种方法比较选出阈值，建立起节点间的连边关系，得到致病前后的两个网络。根据复杂网络中的相关理论，分别对肿瘤样本和正常样本进行社区划分，最后通过观察两个样本的网络系统，分析致病前后基因的变化情况，建议了结肠癌的特征基因。关键字：相关系数矩阵最小生成树复杂网络社区结构一问题的重述癌症起源于正常组织在物理或化学致癌物的诱导下，基因组发生的突变，即基因在结构上发生碱基对的组成或排列顺序的改变，因而改变了基因原来的正常分布（即所包含基因的种类和各类基因以该基因转录的mRNA的多少来衡量的表达水平）。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。 DNA微阵列（DNA microarray）,也叫基因芯片，是最近数年发展起来的一种能快速、高效检测DNA片段序列、基因表达水平的新技术。它将数目从几百个到 2 上百万个不等的称之为探针的核苷酸序列固定在小的（约1cm ）玻璃或硅片等固体基片或膜上，该固定有探针的基片就称之为DNA微阵列。根据核苷酸分子在形成双链时遵循碱基互补原则，就可以检测出样本中与探针阵列中互补的核苷酸片段，从而得到样本中关于基因表达的信息，这就是基因表达谱，因此基因表达谱可以用一个矩阵或一个向量来表示，矩阵或向量元素的数值大小即该基因的表达水平。随着大规模基因表达谱 ( Gene expression profile，或称为基因表达分布图) 技术的发展，样本类各种组织的正常的基因表达已经获得，各类病样本的基因表达分布图都有了参考的基准，因此基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题。如果可以在分子水平上利用基因表达分布图准确地进行肿瘤亚型的识别，对诊断和治疗肿瘤具有重要意义。因为每一种肿瘤都有其基因的特征表达谱。从DNA 芯片所测量的成千上万个基因中，找出决定样本类别的一组基因 “标签”,即 “信息基因” （informative genes ）是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在，同时也为抗癌药物的研制提供了捷径。通常由于基因数目很大，在判断肿瘤基因标签的过程中，需要剔除掉大量“无关基因”，从而大大缩小需要搜索的致癌基因范围。事实上，在基因表达谱中, 一些基因的表达水平在所有样本中都非常接近。例如，不少基因在急性白血病亚型（ALL,AML）两个类别中的分布无论其均值还是方差均无明显差别,可以认为这些基因与样本类别无关,没有对样本类型的判别提供有用信息,反而增加信息基因搜索的计算复杂度。因此,必须对这 “无关基因” 进行剔除。经过10余年的努力，在基因表达谱分析方面取得了长足的进展，但是仍然有很多基本的问题没有解决，主要有下边几个方面，（1）由于基因表示之间存在着很强的相关性，所以对于某种特定的肿瘤，似乎会有大量的基因都与该肿瘤类型识别相关，但一般认为与一种肿瘤直接相关的突变基因数目很少。如何从上述观点出发，选择最好的分类因素？（2）相对于基因数目，样本往往很小，如果直接用于分类会造成小样本的学习问题，如何减少用于分类识别的基因特征是分类问题的核心，事实上只有当这种特征较少时，

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基因表达谱的复杂网络研究.pdfVIP