利用“融合-提炼方”提取肿瘤信息基因.docVIP

  • 4
  • 0
  • 约4.51万字
  • 约 31页
  • 2016-08-18 发布于贵州
  • 举报

利用“融合-提炼方”提取肿瘤信息基因.doc

利用“融合-提炼方”提取肿瘤信息基因

利用“融合-提炼方法”提取肿瘤信息基因 云南大学 杨晓洁、赵留明、田丰 摘要:本文基于2010年9月全国研究生数学建模竞赛A题附带的关于“22个正常人和40个结肠癌患者在2000个基因片段上的基因表达数据”,紧扣“肿瘤信息基因提取”这一主题,提出了一种“融合-提炼方法”,从数目庞大的基因中提炼出3个最显著的“信息基因”用于肿瘤的识别,并从统计假设检验和对真实样本数据的样本类别判定的角度,证明了该方法的有效性和科学性。具体说来,该方法从三个角度切入问题,逐层筛选,目标直指“搜索在正常人和结肠癌患者中表达水平差异较大的信息基因”。首先,从基因与样本类别的相关性角度出发,采用单因子多变量方差分析法进行基因的重要性分析,剔除了那些对样本类别的决定没有贡献的基因。其次,从相似性角度出发,首次引入模糊数学中的算术平均贴近度,来衡量某个基因在正常人和结肠癌患者中表达水平的接近程度,在上一步的基础上剔除了接近程度很高的基因。值得注意的是,在这一部分的方法细节上,一方面创造性地构造出适合于本文研究问题的隶属度函数,并论证了该函数的合理性;另一方面通过“训练集轮换”的模拟研究方法证明了用算术平均贴近度提取重要基因的稳定性,即从经验上证明了该方法对于样本的替换并不敏感。再次,从因果关系的角度出发,又在上一步的基础上采用Logistic 回归分类模型提炼出与肿瘤识别有关的最显著的“信息基因”。鉴于该

文档评论(0)

1亿VIP精品文档

相关文档