- 43
- 0
- 约6.21万字
- 约 29页
- 2019-09-13 发布于江苏
- 举报
全国第七届研究生数学建模竞赛
全国第七届研究生数学建模竞赛
题 目
A 确定肿瘤的重要基因信息
——提取基因图谱信息方法的研究
摘 要 :
对于问题一,我们首先对数据进行前期的预处理,然后分别建立评分模型,
对各个基因进行打分,从而按照分数又高到低排序,然后用主成分析法,确定包
含样本全部信息的基因集的基因个数,最后用因子分析的方法提取出基因中潜在
的少量可以完全表达样本信息的因子,共7个,我们称之为因素。
问题二实际上就是要求我们找出能够表达全部样本的最少的基因标签的个
数。我们利用REF-relief算法和支持向量机 (SVM)进行选择,最后使用 “留一
法”对其进行误差分析,最终得到最少的基因标签为5个,分别是X63629 、H06524、
H08393、R39209、M26383 ,采用 “留一法”得到最后错判的数量为6个,正确率为
90.3%。
问题三实际上就是让我们在问题二的基础上,建立含有噪声的模型,对含噪
声模型进行分析,看是否能发现噪声对分类是有帮助的。我们引入控制因子,提
出对噪声的分析是有利于分类,如果控制因子选取在合理的范围并且方向也选取
合适,那么可以大大降低样本错判的数量。
第四问就是让我们能够利用信息融合以及数据挖掘的方法,建立起一个分类
算法的决策树,由于信息来自多个方面,因此对海量信息有效提取和挖掘是十分
又必须的,终于我们得到了一个基于二叉树的基因诊断模型,该模型能有效地对
样本进行分类,结果仅有1个样本错判。
目录
1 问题重述 3
2 模型假设 4
3 符号说明 4
4 问题分析 5
4.1 问题 1 分析 5
4.2 问题2 分析 5
4.3 问题3 分析 5
4.4 问题4 分析 5
5 模型建立与求解 6
5.1 数据预处理 6
5.2 问题 1 模型与求解 7
5.3 问题2 模型与求解 14
5.4 问题3 模型与求解 16
5.5 问题4 模型与求解 20
6 附录 27
7 参考文献 29
2
1 问题重述
癌症起源于正常组织在物理或化学致癌物的诱导下,基因组发生的突变,即
基因在结构上发生碱基对的组成或排列顺序的改变,因而改变了基因原来的正常
分布(即所包含基因的种类和各类基因以该基因转录的mRNA的多少来衡量的表达
水平)。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。
DNA微阵列 (DNA microarray),也叫基因芯片,是最近数年发展起来的一种
能快速、高效检测DNA片段序列、基因表达水平的新技术。它将数目从几百个到
2
上百万个不等的称之为探针的核苷酸序列固定在小的 (约1cm )玻璃或硅片等
固体基片或膜上,该固定有探针的基片就称之为DNA微阵列。根据核苷酸分子在
形成双链时遵循碱基互补原则,就可以检测出样本中与探针阵列中互补的核苷酸
片段,从而得到样本中关于基因表达的信息,这就是基因表达谱,因此基因表达
谱可以用一个矩阵或一个向量来表示,矩阵或向量元素的数值大小即该基因的表
达水平 (见附件)。
随着大规模基因表达谱 (Gene expres
您可能关注的文档
最近下载
- 2025-2026学年重庆市江津实验中学、田家炳中学、李市中学、白沙中学等金砖六校九年级(上)期末化学模拟试卷(含答案).pdf VIP
- 阿特拉斯•科普柯 冷冻式干燥机.pdf VIP
- 重庆市九龙坡区2024-2025学年九年级上学期期末考试数学试题(含答案与解析).pdf VIP
- 江苏省盐城七校联考2025-2026学年高三上学期阶段检测语文试题及答案.docx VIP
- 浙江省杭州市富阳区2023-2024学年三年级上学期数学期末试卷.docx VIP
- TXFQC-合成橡胶消防水带.pdf VIP
- 重庆市九龙坡区渝高教育集团2024-2025学年九年级上学期期末考试物理试题(含答案).pdf VIP
- 精品解析:2024-2025学年浙江省杭州市富阳区人教版四年级上册期末考试数学试卷(原卷版).docx VIP
- 2025安徽高级档案职称综合试题及答案.docx VIP
- 社工助力乡村振兴—农村社会工作网络培训课程答案.pdf VIP
原创力文档

文档评论(0)