数学建模 DN序列分类模型 (终稿).docVIP

下载本文档

40
0
约3.84万字
约 32页
2016-10-18 发布于贵州
举报

数学建模 DN序列分类模型 (终稿).doc

数学建模 DN序列分类模型 (终稿)

DNA序列分类模型 DNA序列分类模型摘要本文分析了已知类别的人工DNA序列的特征，建立了聚类分析延拓模型和马尔可夫模型，分别对未知类别的人工DNA序列和自然序列进行分类，根据分类效果选出了较优模型。首先对数据进行预处理，得到人工DNA序列的单个碱基丰度和不同碱基丰度之比等特征量，进而分析A、B两类的差异，得到合适的特征判定条件对未知类别的DNA序列进行分类。计算人工DNA序列的特征量，给出各序列的统计数据。其次用聚类分析延拓模型进行分类。用A、B两类具有明显差异的特征作为样品特征变量，得到欧式空间中表征编号1-20人工DNA序列的特征向量，计算两两之间的Lance和Williams距离进行相似性度量，逐步选择相似性较大的归为一类，同时不断更新类内的标准比较特征向量，对聚类方法进行延拓，最终得到类内差异小、类间差异大的A、B两类，建立了聚类分析延拓模型。再对选取的特征变量进行改进，提高模型的分类效果。最后，借助均值、方差和相关系数等参数对改进模型的分类效果进行分析。再次用马尔可夫模型进行分类。将DNA序列看成是马尔可夫链，求出编号1-10和11-20人工DNA序列在已知当前碱基种类的条件下，下一个碱基出现任一种的概率，结果存入概率转移矩阵1和2，再利用矩阵1和2分别求出编号1-20中任

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数学建模 DN序列分类模型 (终稿).docVIP