基于临床与基因图谱的结肠癌基因标签提取.docVIP

基于临床与基因图谱的结肠癌基因标签提取.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
全国第七届研究生数学建模丸赛 基于临床与基因图谱的结肠癌基因标签提取 摘 要 由于基因间的调控和相互作用表现为“功能基因组合”形式,基因的功能与 作用是集体作用的结果,而非单个基因单独作用的结果,表现在分类特征对样本 的分类能力方而就是以特征集合的形式整体体现出来的。根据这个生物学知识, 本文考察由多个基因构成的基因簇作为区分正常人和癌症患者的分类因素,利用 独立成分分析(ICA)技术对己给出的基因表达采样数据进行分析,最大程度地降 低基因之间强烈的相互影响,从而获得对判断是否患有肿瘤或者癌症的最有直接 关系但数H较少的潜在因素,即基因簇信息。随后,我们采用了支持向量机(SVM) 依据提取出的潜在因索(基因簇)进行分类,筛选出致病的癌症基因15个。另外, 我们还运用基于灵敏度的支持向量机对基因本身进行分类,而不是基于基因簇。 利用得到的结果与基于独立成分分析的方法所提取的基因提供比较。发现所筛选 的基因簇屮有三个基因与灵敏度支持向量机方法筛选的基因相同。 对预处理过后的1908个基因,通过独立成分分析提取出61个基因簇,这些基 因簇屮含有与分类无关的基因簇,即噪声,以及与分类相关的分类因素5个。事 实上,为了能够得到最好的分类因素,我们将问题转化为一类信号稀疏表示的优 化问题。此外,为了进一步进行基因分类,我们利用含噪声的ICA和带松弛因子 的非光滑优化模型研究带有噪声的基因图谱信息。通过含噪声模型与不含噪声模 型进行对比,说明含噪模型的优势。 最后,借助于条件概率模型,对病人数据进行了筛选,将临床结论与基因图 谱相结合,通过己有文献以及生物信息网站所获取资料发现,所筛选的大部分基 因标签与当今临床医学所得到的直肠癌研究结论相吻合。 关键词:含噪基因簇独立成分分析支持向量机非光滑优化模型临床基因标签 一、问题的重述 癌症起源于正常组织在物理或化学致癌物的诱导下基因组发生的突变,即基 因在结构上发牛碱基对的组成或排列顺序的改变,因而改变了基因原来的正常分 布(即所包含基因的种类和各类基因以该基因转录的mRNA的多少來衡量的表 达水平)。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。随 着大规模基因表达谱(Gene expression profile ,或称为基因表达分布图)技术的 发展,人类各种组织的正常的基因表达己经获得,各类病人的基因表达分布图都 有了参考的基准,因此基因表达数据的分析与建模已经成为牛物信息学研究领域 屮的重要课题。通常由于基因数H很大,所以在判断肿瘤基因标签的过程屮,我 们需要剔除掉大量“无关基因”,从而大大缩小需要搜索的致癌基因范围。 从project_data.txt数据屮获取的基因表达谱屮的数据屮包含62个样本(其屮 22个为正常人样本,40个人为癌症病人样本),每个样本屮包含2000条基因数 据,我们着重需要解决以下几个问题: 由于基因表示之间存在着很强的相关性,所以对于某种特定的肿瘤,似乎 会有犬量的基因都与该肿瘤类型识别相关,但-?般认为与一种肿瘤直接相关的突 变基因数H很少。对于给定的数据需要选择最好的分类因素; 和对于基因数H,样本往往很小,对于给定的结肠癌数据需要从分类的角 度确定相应的基因“标签”; 基因表达谱屮不可避免地含有噪声,对含有噪声的基因表达谱提取信息时会 产生偏差,需要建立噪声模型去分析给定数据屮的噪声对确定基因标签产生有利 的影响; ⑷ 在肿瘤研究领域通常会己知若干个信息基因(如APC、RAS基因)与某种癌 症的关系密切,需要建立融入了这些有助于诊断肿瘤信息的确定基因“标签”的 数学模型。 二、模型假设 基因表达谱数据屮虽然含有噪声,但随机噪声的强度不会淹没真正的基因信 息。 不同基因信号之间的兀余关系是存在的。 三、数据预处理 基因芯片经激光扫描仪扫描,再经图像分析软件进行处理,得到反映基因表 达水平的数据序列。这些数据用于差异表达基因的鉴别和基因表达模式的分析Z 前,还需要进行初步的处理。如为了从生物学角度上更好地解释及使数据满足特 定的数据分布,需要对荧光强度数据进行对数转换;实验屮系统误差的存在使得 不能对不同样本的数据进行直接比较,因此针对系统偏倚产牛的原因而进行数据 归一化是必要的,也是数据预处理屮重要的一个步骤。 (-)数据的对数转换 对数据进行对数转换是基于以下一些方面的原因。 首先是在生物学上易于理解和解释。假设两个基因在对照样品屮的背景校正 强度值均为1000,而在另外一种实验条件下的强度值分别为100和10000o如果 从对照与实验的绝对值来看,一个基因表达的变化远远大于另一基因,即 10000-1000? 1000-100o但是,从生物学的角度出发,两个基因变化的是相等的, 都是10倍的变化。用对数转换可以消除这种由两个相对变化间的不成

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档