dna序列类模型.pdfVIP

  • 18
  • 0
  • 约5.63万字
  • 约 44页
  • 2015-10-21 发布于贵州
  • 举报
dna序列类模型

摘要 摘要 依据生物学知识,按照氨基酸分子中侧链基的极性性质,把碱基三联体分成五大类, 即四大类氨基酸和终止码。以五类密码子出现的频率构成的特征向量来表征DNA序列。 这是从不同序列中氨基酸含量不同提炼出能从碱基含量和碱基排列情况两方面代表序列 特征的氨基酸类别信息的方法。 ’ 然后用三种统计方法进行分类。用马氏距离判别法和FISHER判别法对给定序列进 行分类,样本回代正确率均达100%,二者分类一致率为90%;应用聚类分析方法对DNA 序列片段进行分类,样本回代正确率达95%。 本模型考虑结合生物学知识,特征向量维度较低,便于计算,分类结果精度较高, 优于仅基于碱基含量的判别分类模型。 关键词:DNA序列;密码子;频率;判别分析;聚类分析 Abstract tonatureof oftheforkedchainofamino Abstract:Accordingpolarity acids,it dividesthebase intofive is four kindsofaminoacidsand triplets categories,that stop the 5kindsof for extractCharacteristicVector signal.Byappearancefrequency codon,we DNA onthedifferentcontentof amino representingsequence.Base differentacids,the CharacteristicVectordisclosestheinformationofaminoacidsfromtwo ofContent aspects and ofnucleotidebases. arrangement DNA isclassifiedStatistical sequencefragment by theory.DNA techniques sequence isclassified classificationof distance Mahalanobisand fragment bydiscriminating theory Fisherdiscriminantmethod.Theresultsshowedthatthe rateofverified Was positive sample 100%andtheconsistentrateWas90%.DNA isclassifiedCluster sequencefragment by theory and the rateofverified was95%. positive s

文档评论(0)

1亿VIP精品文档

相关文档