- 8
- 0
- 约3.14万字
- 约 20页
- 2019-09-13 发布于江苏
- 举报
全国第七届研究生数学建模竞赛
全国第七届研究生数学建模竞赛
题 目 基因表达谱的复杂网络研究
摘 要 :
本文采用复杂网络理论,整合基因关联信息和文献中的结果,得到一些关于
结肠癌标志基因的可能的结果。首先利用分类信息指数对数据进行初步筛选,选
出了 314 个基因。对选出的基因分别做肿瘤样本和正常样本的相关系数矩阵,利
用 Kruskal 算法分别对两个相关系数矩阵做最小生成树,然后通过两种方法比较
选出阈值,建立起节点间的连边关系,得到致病前后的两个网络。根据复杂网络
中的相关理论,分别对肿瘤样本和正常样本进行社区划分,最后通过观察两个样
本的网络系统,分析致病前后基因的变化情况,建议了结肠癌的特征基因。
关键字:相关系数矩阵 最小生成树 复杂网络 社区结构
一 问题的重述
癌症起源于正常组织在物理或化学致癌物的诱导下,基因组发生的突变,即
基因在结构上发生碱基对的组成或排列顺序的改变,因而改变了基因原来的正常
分布(即所包含基因的种类和各类基因以该基因转录的mRNA的多少来衡量的表达
水平)。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。
DNA微阵列 (DNA microarray),也叫基因芯片,是最近数年发展起来的一种
能快速、高效检测DNA片段序列、基因表达水平的新技术。它将数目从几百个到
2
上百万个不等的称之为探针的核苷酸序列固定在小的 (约1cm )玻璃或硅片等
固体基片或膜上,该固定有探针的基片就称之为DNA微阵列。根据核苷酸分子在
形成双链时遵循碱基互补原则,就可以检测出样本中与探针阵列中互补的核苷酸
片段,从而得到样本中关于基因表达的信息,这就是基因表达谱,因此基因表达
谱可以用一个矩阵或一个向量来表示,矩阵或向量元素的数值大小即该基因的表
达水平。
随着大规模基因表达谱 ( Gene expression profile, 或称为基因表达分
布图) 技术的发展,样本类各种组织的正常的基因表达已经获得,各类病样本
的基因表达分布图都有了参考的基准,因此基因表达数据的分析与建模已经成为
生物信息学研究领域中的重要课题。如果可以在分子水平上利用基因表达分布图
准确地进行肿瘤亚型的识别,对诊断和治疗肿瘤具有重要意义。因为每一种肿瘤
都有其基因的特征表达谱。从DNA 芯片所测量的成千上万个基因中,找出决定样
本类别的一组基因 “标签”,即 “信息基因” (informative genes )是正确识
别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也为抗癌药物的研
制提供了捷径。
通常由于基因数目很大,在判断肿瘤基因标签的过程中,需要剔除掉大量“无
关基因”,从而大大缩小需要搜索的致癌基因范围。事实上,在基因表达谱中,
一些基因的表达水平在所有样本中都非常接近。例如,不少基因在急性白血病亚
型 (ALL,AML)两个类别中的分布无论其均值还是方差均无明显差别,可以认为这
些基因与样本类别无关,没有对样本类型的判别提供有用信息,反而增加信息基
因搜索的计算复杂度。因此,必须对这 “无关基因” 进行剔除。经过10余年的
努力,在基因表达谱分析方面取得了长足的进展,但是仍然有很多基本的问题没
有解决,主要有下边几个方面,
(1) 由于基因表示之间存在着很强的相关性,所以对于某种特定的肿瘤,似乎
会有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相
关的突变基因数目很少。如何从上述观点出发,选择最好的分类因素?
(2) 相对于基因数目,样本往往很小,如果直接用于分类会造成小样本的学习
问题,如何减少用于分类识别的基因特征是分类问题的核心,事实上只有
当这种特征较少时,
您可能关注的文档
最近下载
- 九上期末考试数学模拟.pdf VIP
- 2025年体育用品绿色技术专利行业报告.docx
- 2025年内蒙古呼和浩特市政府采购评审专家考试真题(附含答案).docx VIP
- 2023-2025中考化学真题分类汇编:专题05 元素考点01 元素及元素周期表.docx VIP
- 2025年内蒙古呼和浩特市政府采购评审专家考试真题含答案.docx VIP
- 98浙J30 卷帘门-标准图集.docx VIP
- 三年(2019-2021)中考真题化学-考点08原子结构(全国通用).docx VIP
- 2025年内蒙古呼和浩特市政府采购评审专家考试测试题及答案.docx VIP
- 二零二五版合同Amazon店铺代运营协议模板.docx VIP
- 《膝关节教学》课件.ppt VIP
原创力文档

文档评论(0)