数学建模论文-基于临床与基因图谱的结肠癌基因标签提取.doc

数学建模论文-基于临床与基因图谱的结肠癌基因标签提取.doc

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
全国第七届研究生数学建模竞赛 题 目 基于临床与基因图谱的结肠癌基因标签提取 摘 要 由于基因间的调控和相互作用表现为“功能基因组合”形式,基因的功能与作用是集体作用的结果,而非单个基因单独作用的结果,表现在分类特征对样本的分类能力方面就是以特征集合的形式整体体现出来的。根据这个生物学知识,本文考察由多个基因构成的基因簇作为区分正常人和癌症患者的分类因素,利用独立成分分析(ICA)技术对已给出的基因表达采样数据进行分析,最大程度地降低基因之间强烈的相互影响,从而获得对判断是否患有肿瘤或者癌症的最有直接关系但数目较少的潜在因素,即基因簇信息。随后,我们采用了支持向量机(SVM)依据提取出的潜在因素(基因簇)进行分类,筛选出致病的癌症基因15个。另外,我们还运用基于灵敏度的支持向量机对基因本身进行分类,而不是基于基因簇。利用得到的结果与基于独立成分分析的方法所提取的基因提供比较。发现所筛选的基因簇中有三个基因与灵敏度支持向量机方法筛选的基因相同。 对预处理过后的1908个基因,通过独立成分分析提取出61个基因簇,这些基因簇中含有与分类无关的基因簇,即噪声,以及与分类相关的分类因素5个。事实上,为了能够得到最好的分类因素,我们将问题转化为一类信号稀疏表示的优化问题。此外,为了进一步进行基因分类,我们利用含噪声的ICA和带松弛因子的非光滑优化模型研究带有噪声的基因图谱信息。通过含噪声模型与不含噪声模型进行对比,说明含噪模型的优势。 最后,借助于条件概率模型,对病人数据进行了筛选,将临床结论与基因图谱相结合,通过已有文献以及生物信息网站所获取资料发现,所筛选的大部分基因标签与当今临床医学所得到的直肠癌研究结论相吻合。 关键词:含噪 基因簇 独立成分分析 支持向量机 非光滑优化模型 临床 基因标签 一、问题的重述 癌症起源于正常组织在物理或化学致癌物的诱导下基因组发生的突变,即基因在结构上碱基对组成或排列顺序改变该基因转录的mRNA的多少来衡量的随着大规模基因表达( Gene?expression?profile?,或称为基因表达分布图) ?技术的发展基因表达分布图基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题。由于基因表示存在着很强的相关性,所以对于某种特定的肿瘤,似乎有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相关的突变基因数目很少选择最好的 相对于基因数目,样本往往很小,从分类的角度确定基因标签在肿瘤研究领域通常会已知若干个信息基因与某种癌症关系密切,融入诊断肿瘤信息确定基因标签的。但是,从生物学的角度出发,两个基因变化的是相等的,都是10倍的变化。用对数转换可以消除这种由两个相对变化间的不成比例所引起的误导。例如,对数据进行以10为底的对数变换,则 可以看出,基因的变化是相等的,只是方向不同,一个增大,另一个减小。对数变换减弱了数据的平均值和方差,使得表达的变化独立于其产生的强度位置,从而使得低强度值与高强度值发生的倍数变化具有可比性。 另外,对数变换使得数据的分布具有对称性和接近正态分布性质,而一些常用的统计方法,如t检验、F检验等方法都要求数据满足正态分布或近似正态分布。由于本问题中所提供的数据已经是对数形式的,所以可以忽略这一步。 (二) 重复数据的合并 重复的测量可以用于估计实验中的噪声,比较不同处理组间和处理组内的变异。然而,在特定的条件下把所有的重复值合并成一个数值可能更为方便,而这一个值就是给定基因(条件)的代表。根据不同的情况,这些重复测量可能是同一芯片上的重复点,或是同一基因在不同芯片上的测量值。通常的合并是指计算这些重复值的集中趋势指标,如均数、中位数或众数。 (三)数据归一化 系统误差使得采集到的数据可能含有奇异样本数据所谓奇异样本数据指的是相对于其他输入样本特别大或特别小的样本矢量。奇异样本数据存在归一化的具体作用是归纳统一样本的统计分布性。归一化在01之间是统计的概率分布,归一化在-1+1之间是统计的坐标分布内,这样可以降低奇异样本数据对整体的误差影响,从而更加有效地提取特征基因。另外,数据归一化对于独立分量分析(ICA)、支持向量机(SVM)数据处理也是有帮助的。 首先,根据附件的文件说明,我们需要对project_data.txt里的数据进行以下预处理: 1. 在project_data.txt数据文件中,第二列为UMGAP,HSAC07 或者i的数据是和RNA控制相关的,对下面所做的工作没有关系,为冗余数据,所以需要把这些数据去除。 2. 基因芯片探针探测到的序列表明了基因的表达水平,有些数据可能是同一基因探针的重复点,也有可能是同一基因在不同基因探针上的探测值。因而,对于project_data.txt中基因相同的序列,需

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档