- 1
- 0
- 约5.03万字
- 约 24页
- 2019-09-13 发布于江苏
- 举报
全国第七届研究生数学建模竞赛
全国第七届研究生数学建模竞赛
题 目 基于临床与基因图谱的结肠癌基因标签提取
摘 要
由于基因间的调控和相互作用表现为 功能基因组合”形式,基因的功能与
作用是集体作用的结果,而非单个基因单独作用的结果,表现在分类特征对样本
的分类能力方面就是以特征集合的形式整体体现出来的。根据这个生物学知识,
本文考察由多个基因构成的基因簇作为区分正常人和癌症患者的分类因素,利用
独立成分分析 (ICA)技术对已给出的基因表达采样数据进行分析,最大程度地降
低基因之间强烈的相互影响,从而获得对判断是否患有肿瘤或者癌症的最有直接
关系但数目较少的潜在因素,即基因簇信息。随后,我们采用了支持向量机 (SVM)
依据提取出的潜在因素 (基因簇)进行分类,筛选出致病的癌症基因15个。另外,
我们还运用基于灵敏度的支持向量机对基因本身进行分类,而不是基于基因簇。
利用得到的结果与基于独立成分分析的方法所提取的基因提供比较。发现所筛选
的基因簇中有三个基因与灵敏度支持向量机方法筛选的基因相同。
对预处理过后的1908个基因,通过独立成分分析提取出61个基因簇,这些基
因簇中含有与分类无关的基因簇,即噪声,以及与分类相关的分类因素5个。事
实上,为了能够得到最好的分类因素,我们将问题转化为一类信号稀疏表示的优
化问题。此外,为了进一步进行基因分类,我们利用含噪声的ICA和带松弛因子
的非光滑优化模型研究带有噪声的基因图谱信息。通过含噪声模型与不含噪声模
型进行对比,说明含噪模型的优势。
最后,借助于条件概率模型,对病人数据进行了筛选,将临床结论与基因图
谱相结合,通过已有文献以及生物信息网站所获取资料发现,所筛选的大部分基
因标签与当今临床医学所得到的直肠癌研究结论相吻合。
关键词:含噪 基因簇 独立成分分析 支持向量机 非光滑优化模型 临床 基因标签
一、问题的重述
癌症起源于正常组织在物理或化学致癌物的诱导下基因组发生的突变,即基
因在结构上发生碱基对的组成或排列顺序的改变,因而改变了基因原来的正常分
布 (即所包含基因的种类和各类基因以该基因转录的 mRNA 的多少来衡量的表
达水平)。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。随
着大规模基因表达谱 ( Gene expression profile ,或称为基因表达分布图) 技术的
发展,人类各种组织的正常的基因表达已经获得,各类病人的基因表达分布图都
有了参考的基准,因此基因表达数据的分析与建模已经成为生物信息学研究领域
中的重要课题。通常由于基因数目很大,所以在判断肿瘤基因标签的过程中,我
们需要剔除掉大量 无关基因”,从而大大缩小需要搜索的致癌基因范围。
从 project_data.txt 数据中获取的基因表达谱中的数据中包含 62 个样本(其中
22 个为正常人样本,40 个人为癌症病人样本) ,每个样本中包含 2000 条基因数
据,我们着重需要解决以下几个问题:
(1) 由于基因表示之间存在着很强的相关性,所以对于某种特定的肿瘤,似乎
会有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相关的突
变基因数目很少。对于给定的数据需要选择最好的分类因素;
(2) 相对于基因数目,样本往往很小,对于给定的结肠癌数据需要从分类的角
度确定相应的基因 标签”;
(3) 基因表达谱中不可避免地含有噪声,对含有噪声的基因表达谱提取信息时会
产生偏差,需要建立噪声模型去分析给定数据中的噪声对确定基因标签产生有利
的影响;
(4) 在肿瘤研究领域通常会已知若干个信息基因 (如 APC 、RAS 基因)与某种癌
症的关系密切,需要建立融入了这些有助于诊断肿瘤信息的确定基因 标签”的
数学模型。
二、模型假设
1. 基因表达谱数据中虽然含有噪声,但随机噪声的强度不会淹没真正的基因信
息。
2. 不同基因信号之间的冗余关系是存在的。
三、数
原创力文档

文档评论(0)