- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
全国第七届研究生数学建模竞赛
题 目 基于基因表达谱的肿瘤识别方法的研究
摘 要:
本文基于基因表达谱讨论了肿瘤识别方法的问题。首先建立分类数学模型对样本分类识别:即在对原始数据进行处理的基础上,利用主成分分析的方法进行降维处理;并将提取的主成分数据输入支持向量机模型训练学习,从而实现对样本的有效分类。其中模型对样本正确分类识别率接近90%,并且对模型进行敏感性和稳定性检验测试。其次,通过Relief算法对基因进行排序和筛选,在此基础上运用留一交叉检验法确定了一组“基因标签”,并利用随机重复试验检验了“基因标签”的样本分类能力。在上述模型运算分析结果的基础上分析了影响肿瘤识别效果的噪声来源,对数据中存在的噪声样本和重复数据进行降噪,建立了噪声模型,进而得到了一组新的基因“标签”,从而使肿瘤识别精度提高到了92.65%;最后融入临床生物学信息,综合运用支持向量机等数学理论建立了肿瘤诊断识别的数学模型,肿瘤识别率提高到了99.8%。
关键词:基因表达谱 肿瘤 支持向量机 主成分分析 Relief算法
参赛密码 (由组委会填写) 参赛队号
参赛密码
(由组委会填写)
队员姓名 杨振华 刘爱兰 邢秉昆
中山大学承办
PAGE 32
一、问题重述
癌症起源于正常组织在物理或化学致癌物的诱导下基因组发生的突变,即基因在结构上发生碱基对的组成或排列顺序的改变,因而改变了基因原来的正常分布。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。
从DNA芯片所测量的成千上万个基因中,找出决定样本类别的一组基因“标签”取出“信息基因”是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也为抗癌药物的研制提供了捷径。
下面我们参考基因表达谱及肿瘤识别问题方面的研究成果,利用附件所给数据并结合相关资料,就提取基因图谱信息方法研究如下问题:
1、由于基因表示之间存在着很强的相关性,所以对于某种特定的肿瘤,似乎会有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相关的突变基因数目很少。对于给定的数据,如何从上述观点出发,选择最好的分类因素?
2、相对于基因数目,样本往往很小,如果直接用于分类会造成小样本的学习问题,如何减少用于分类识别的基因特征是分类问题的核心,事实上只有当这种特征较少时,分类的效果才更好些。对于给定的结肠癌数据如何从分类的角度确定相应的基因“标签”?
3、基因表达谱中不可避免地含有噪声(见1999 年Golub在《Science》发表的文章),有的噪声强度甚至较大,对含有噪声的基因表达谱提取信息时会产生偏差。通过建立噪声模型,分析给定数据中的噪声能否对确定基因标签产生有利的影响?
4、在肿瘤研究领域通常会已知若干个信息基因与某种癌症的关系密切,建立融入了这些有助于诊断肿瘤信息的确定基因“标签”的数学模型。比如临床有下面的生理学信息:大约90%结肠癌在早期有5号染色体长臂APC基因的失活,而只有40%~50%的ras相关基因突变。
二、问题分析
2.1寻找与肿瘤相关的突变基因的分类因素
我们认为“分类因素” 可理解为由基因的某种组合得到的潜在因素。针对这一问题,我们设计了一种有效的算法作为样本分类识别的依据。具体内容如下:首先利用修正后的信噪比公式对原始数据中的无关基因进行剔除,同时对保留下来的基因进行主成分分析,既可以实现有效的降维,同时便于计算;然后引入支持向量机分类器,对提取的主成分进行学习训练,得到基于支持向量机的分类模型。在此基础上,我们对算法进行了敏感性检验和稳定性检验。
2.2从分类的角度确定基因“标签”
相对于基因个数来说62个样本非常小,如果直接用于分类会造成小样本的学习问题。我们用Relief算法为每个基因赋予一个权重,然后设定相应的阈值,高于这个阈值的基因被留下;然后用留一交叉检验法来检验我们设定的阈值的合理性,通过检验不断地调整阈值,最终确定哪些基因被留下,而这些基因便是我们分类所依据的基因“标签”。
2.3基因表达谱中噪声模型的建立
基因表达谱中不可避免地含有噪声,对含有噪声的基因表达谱提取信息会产生偏差。为了解决这个问题,我们分析发现Genbank Acc name中含有存在重复数据的基因,运用方差分析来对这种基因的normal样本和cancer样本分别进行显著性检验,发现该种基因在同类样本间存在显著差异,进而推断其显著性差异并不直接作用于样本的分类,应予以剔除。同时,在对第二问中得到的“基因标签”的检验过程中,发现来源于样本的噪声,故对这些样本进行去噪处理。最后,应用第二问的模型对去噪后的数据重新进行运算,得到新的“基因标签”并对其进行检验。
2.4融入临床信息的诊断肿瘤确
原创力文档


文档评论(0)