研究应用生A题.doc

下载文档

4
0
约2.63千字
约 6页
2020-11-09 发布于江苏
举报
版权申诉
保障服务

研究应用生A题.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

全国硕士数学建模竞赛A题确定肿瘤关键基因信息 ????——提取基因图谱信息方法研究癌症起源于正常组织在物理或化学致癌物诱导下，基因组发生突变，即基因在结构上发生碱基正确组成或排列次序改变，所以改变了基因原来正常分布（即所包含基因种类和各类基因以该基因转录mRNA多少来衡量表示水平）。所以探讨基因分布改变和癌症发生之间关系含有深远意义。 DNA微阵列（DNA microarray）,也叫基因芯片，是最近数年发展起来一个能快速、高效检测DNA片段序列、基因表示水平新技术。它将数目从几百个到上百万个不等称之为探针核苷酸序列固定在小（约1）玻璃或硅片等固体基片或膜上，该固定有探针基片就称之为DNA微阵列。依据核苷酸分子在形成双链时遵照碱基互补标准，就能够检测出样本中和探针阵列中互补核苷酸片段，从而得到样本中相关基因表示信息，这就是基因表示谱，所以基因表示谱能够用一个矩阵或一个向量来表示，矩阵或向量元素数值大小即该基因表示水平（见附件）。伴随大规模基因表示谱 ( Gene?expression?profile?,或称为基因表示分布图) ?技术发展，人类多种组织正常基因表示已经取得，各类病人基因表示分布图全部有了参考基准，所以基因表示数据分析和建模已经成为生物信息学研究领域中关键课题。假如能够在分子水平上利用基因表示分布图正确地进行肿瘤亚型识别，对诊疗和诊疗肿瘤含相关键意义。因为每一个肿瘤全部有其基因特征表示谱（见附图）。从DNA?芯片所测量成千上万个基因中，找出决定样本类别一组基因“标签”,即“信息基因” （informative genes?）是正确识别肿瘤类型、给出可靠诊疗和简化试验分析关键所在，同时也为抗癌药品研制提供了捷径。通常因为基因数目很大，在判定肿瘤基因标签过程中，需要剔除掉大量“无关基因”，从而大大缩小需要搜索致癌基因范围。实际上，在基因表示谱中,部分基因表示水平在全部样本中全部很靠近。比如，不少基因在急性白血病亚型（ALL,AML）两个类别中分布不管其均值还是方差均无显著差异,能够认为这些基因和样本类别无关,没有对样本类型判别提供有用信息,反而增加信息基因搜索计算复杂度。所以,必需对这些“无关基因”进行剔除。1999 年《Science》发表了Golub 等针对上述急性白血病亚型识别和信息基因选择问题研究结果[1] 。Golub 等以“信噪比”(Signal to noise ratio) 指标作为衡量基因对样本分类贡献大小量度,采取加权投票方法进行亚型识别,仅依据72个样本就从7 129 个基因中选出了50 个可能和亚型分类相关信息基因。Golub 工作大大缩小了决定急性白血病亚型差异基因范围，给出了亚型识别基因依据，富有发明性。Guyon 等则利用支持向量机方法再从中选出了8个可能信息基因[2]。但信噪比肯定不是衡量基因对样本分类贡献大小唯一标准，肿瘤是致癌基因、抑癌基因、促癌基因和蛋白质经过多个方法作用结果，在确定某种肿瘤基因标签时，应该设法充足利用其它有价值信息。有教授认为[3]在基因分类研究中忽略基因低水平表示、差异不大表示倾向应该被纠正，和临床问题相关关键生理学信息（见问题4）应该融合到基因分类研究中。面对提取基因图谱信息这么前沿性课题，命题人依据自己科学研究经历和思索，猜测以下几点是处理前沿性课题有价值工作。这种猜测是科学研究中关键步骤，当然猜测不会总是可行，更不一定总是正确。但不探索就不能前进，假如能够经过数学建模，得到部分结果能够佐证你们猜测或为新探索提供若干依据，就很有价值。我们目标只是给硕士以启发，激励硕士培养这么发明性发觉能力。所以硕士完全能够独立设计自己技术路线，只要能够有效提取附件基因图谱信息就行。因为基因表示之间存在着很强相关性，所以对于某种特定肿瘤，似乎会有大量基因全部和该肿瘤类型识别相关，但通常认为和一个肿瘤直接相关突变基因数目极少。对于给定数据（见附件），怎样从上述见解出发，选择最好分类原因？相对于基因数目，样本往往很小，假如直接用于分类会造成小样本学习问题，怎样降低用于分类识别基因特征是分类问题关键，实际上只有当这种特征较少时，分类效果才愈加好些。对于给定结肠癌数据怎样从分类角度确定对应基因“标签”？基因表示谱中不可避免地含有噪声（见1999 年Golub在《Science》发表文章），有噪声强度甚至较大，对含有噪声基因表示谱提取信息时会产生偏差。经过建立噪声模型，分析给定数据中噪声能否对确定基因标签产生有利影响？在肿瘤研究领域通常会已知若干个信息基因和某种癌症关系亲密，建立融入了这些有利于诊疗肿瘤信息确实定基因“标签”数学模型。比如临床有下面生理学信息：大约90%结肠癌在早期有5号染色体长臂APC基因失活，而只有40%~50%ras相关基因突变。 1.