数学建模论文-癌症基因与正常基因的区别推荐.doc

数学建模论文-癌症基因与正常基因的区别推荐.doc

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数学建模论文-癌症基因与正常基因的区别推荐

癌症基因与正常基因的区别 摘要 随着人类社会的发展,各种癌症的发病率不断增加。癌症成为影响人类健康的第一大杀手。由科学研究可知其主要源头为基因,为此我们针对癌症样本与正常样本在基因表达上的区别,以及癌症样本具体分类的问题,在合理科学的假设下对题目中给出的40个已知基因表达信息样本的数据用进行处理建立神经网络数学模型,从而有效的实现对未知样本的预测以及对预测癌症样本进行合理的分类,并最终以可视化的方法展现出来。 针对问题一:利用附件前40个已知的基因表达信息样本,对其利用神经网络,主成分分析法,遗传算法对数据进行分析与对比并建立相应的数学模型,从而得到其癌症人基因与正常人基因的特征值,利用其与未知样本比较即可得到未知样本的基因信息。 针对问题二:针对癌症基因中可能出现的子类问题,我们主要采用动态模糊聚类分析的方法对问题求解。首先对20个癌症基因样本利用相关系数法求得其相关性。而后抓住主要矛盾以最低程度降低同组样本相似性为代价求得对其分类的最佳阈值,从而将前20个癌症样本最佳分为4个子类。最后用神经网络对已分类的癌症样本进行训练,通过可视化的方法呈现出我们的分类结果。 关键词:模糊聚类分析 神经网络 可视化 主成分分析法 1. 问题重述 癌症作为当今人类的第一大杀手,其主要特点是。作图工具箱进行分析,将所有样本的基因信息反映在图表上,由此我们发现每个基因都有着其一定的正常表达范围。由于基因种类太多,生物网络过于复杂,为了得到精确的标准,我们将生物技术和计算机技术有效的结合起来对已知信息利用基于遗传算法的神经网络数理化进行分析处理从而建立相对应的数学模型,首先用-1,1对40个已知样本量化使数据简化。由于每个样本中包括都由114个基因,所包含的信息太多。所以我们需要用到主成分分析法对所有已知数据处理找出其特征值—致癌因子,而后可通过神经网络随机挑选出的34个训练样本对所建立神经网络进行训练,用其余6个已知样本对网络测试检验。 对于问题二:基于问题一所建立的数学模型,将待测的样本分为正常和癌症基因样本。但对于将癌症基因的进一步分类,则需要运用动态模糊矩阵,同时,还要找出阈值的合理求解方法,从而得到最佳的答案。最后,利用可视化的方法将样本的分组具体描绘出来。 3.模型的假设与符号说明 3.1 模型的假设 假设一:基因样本的信息准确无误,真实可信,不含特殊样本。 假设二:每个样本间相互独立,每个基因间相互独立。 假设三:样本的基因表达方式一致,由统一计算方法所得并可直接参与计算。 假设四:样本中只有正常人与癌症病人的基因区别,忽略其他遗传病症。 假设五:癌症病人的主要致癌基因均在这114个中。 假设六:基因样本的数据中纵向表达一一对应。 假设七:癌症患者由致癌因子直接导致,不考虑其他客观因素的影响。 假设八:在研究过程中,114个基因不再发生变化影响研究结果。 3.2 符号说明 :癌症基因样本 :第个样本 :样本与相似程度 :模糊等价矩阵 :特征值 :相邻阈值之比 :第组样本相似度 :正常基因样本 :第个样本所包含的第个基因信息 :模糊相似矩阵 :阈值 :样本所分组数 :样本组数之比 :神经网络目标值 4.模型的准备 本文针对癌症样本与正常样本在基因表达上的不同,利用作图工具箱(程序见附录一)使基因表达信息反映在图表上。观察以下图像可以发现每个正常基因都是有一定的正常表达范围的,超过这个范围的基因可以确定为癌症基因。但是通过作图模型做出的图表只能对样本进行粗略的判断,不能得到精准的结果,所以我们接下来需要利用合理的数理分析对数据进行再次处理建立有效的数学模型来区分癌症与正常的基因。如图一所示: 图1 5.模型的建立与求解 5.1 问题一的解决: 第一步:针对问题的特殊性,我们主要选择BP神经网络对其求解。根据题中所给60个人的基因表达,对前40个人已知基因进行量化: 将前40个正常人与癌症患者具体量化为: = 则目标值为: T=[-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1] 第二步:题中所给数据每个人均有114个基因来决定是属于癌症还是正常,变量太多,无疑会增加分析问题的难度与复杂性,并且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此我们选取60个人的主要致癌基因,也即对60行114列数据进行处理,选取主要特征。利用主成分分析法减少输入变量,减少训练时间,提高训练效率,达到提高神经网络泛化能力的目的。得到特征值的贡献率如图2所示(程序见附录):

文档评论(0)

feixiang2017 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档