数学建模 DN序列分类模型 (终稿).docVIP

  • 40
  • 0
  • 约3.84万字
  • 约 32页
  • 2016-10-18 发布于贵州
  • 举报
数学建模 DN序列分类模型 (终稿)

DNA序列分类模型 DNA序列分类模型 摘要 本文分析了已知类别的人工DNA序列的特征,建立了聚类分析延拓模型和马尔可夫模型,分别对未知类别的人工DNA序列和自然序列进行分类,根据分类效果选出了较优模型。 首先对数据进行预处理,得到人工DNA序列的单个碱基丰度和不同碱基丰度之比等特征量,进而分析A、B两类的差异,得到合适的特征判定条件对未知类别的DNA序列进行分类。计算人工DNA序列的特征量,给出各序列的统计数据。 其次用聚类分析延拓模型进行分类。用A、B两类具有明显差异的特征作为样品特征变量,得到欧式空间中表征编号1-20人工DNA序列的特征向量,计算两两之间的Lance和Williams距离进行相似性度量,逐步选择相似性较大的归为一类,同时不断更新类内的标准比较特征向量,对聚类方法进行延拓,最终得到类内差异小、类间差异大的A、B两类,建立了聚类分析延拓模型。再对选取的特征变量进行改进,提高模型的分类效果。最后,借助均值、方差和相关系数等参数对改进模型的分类效果进行分析。 再次用马尔可夫模型进行分类。将DNA序列看成是马尔可夫链,求出编号1-10和11-20人工DNA序列在已知当前碱基种类的条件下,下一个碱基出现任一种的概率,结果存入概率转移矩阵1和2,再利用矩阵1和2分别求出编号1-20中任

文档评论(0)

1亿VIP精品文档

相关文档