基于BP算法DNA序列分类模型研究.pdfVIP

  • 0
  • 0
  • 约1.62万字
  • 约 22页
  • 2026-02-03 发布于北京
  • 举报

employtheBP(backpropagation)algorithmtotrainNNbyuseoftheNeuralNetwork

ToolboxinMATLABsoftwarepackage.Inthispaper,twothree-storyNNarecreatedto

inputtheextractedDNAcharactervectorsassamplesintothem.Afterthetraining,

charactersareextractedfromthe20unclassifiedartificialsequencesamplesand182

naturalsequencesamplestoformthecharactervectorsasinputofthetwoNNfor

clustering.Theresultsshow:theclusteringmethodpresentedinthispapercanclassify

theDNAsequencesinquitehighaccuracyandprecision.Itisquitefeasibletoapplythe

artificialneuralnetworktoDNAsequenceclustering

DNA分类模型

杨健,王驰,杨勇

指导老师:王鸣

(北京大学,北京100871)

编者按:本文将DNA序列的碱基的组合看作“文章”的关键词,用逐步优选法对关

键词进行优选并用分层分类的方法进行分类从理论上说,这一方法可以提取较好的

特征,而且分类也较精细这一模型有一定创造性,分析问题比较精细而贴近实际,

思路清楚,叙述通顺简练

摘要:本模型充分利用了所给数据的特点,运用统计、最优化等数学方法,从已知

样本序列中提炼出能较好代表两类特征的关键字符串,据此提出量化的分类标准,

能较好的对任给DNA序列进行分类。首先,从已知样本序列中用广度优先法选出

所有重复出现的字符串,并计算其标准化频率及分散度。然后,利用样本数据结合

最小二乘法确定两类字符串各自的优先级函数,并且逐步优化其参数使之达到稳定,

提高了可信度。最后,根据优先级函数找出关键词,然后确定权数,用层次分析法

对未知样本进行分类,并定出显著水平,从而得到了一个比较通用的分类方法。经

过检验,此方法对21—40号待测样本进行了很好的分类,对后面的182个DNA序

列进行同样的操作,也有较好的效果

1问题的重述(略)

2模型假设

(1)假定待分类样本21—40中既不属于A类也不属于B类的样本百分比不超过

5%

(2)假设keyword的重要性与和有确定的关系,且只与和有关(,定义

见下).

(3)假设不代表A、B类特征的字符串在DNA序列中是均匀分布的

3模型的分析

从所给的DNA序列观察发现,很多字符串重复出现的频率很高,而且有些字符串

在A类和B类中出现的次数有很明显的差距,这暗示把某些字符串作为A、B两类

的一个分类标准所以应对A、B两类已知样本做统计分析,找出其中可能代表该类

特征的字符串因为每个字符串重要性可能不一样,所以对这些字串的重要性排序,

选出最能代表该类特征的一部分字串然后用这些字串作为标准判断验证A、B两类,

看所选的标准的准确性,最后用于任何一个DNA序列的分类

4定义与符号说明

A类样本:编号为1-10的DNA序列

B类样本:编号为11-20的DNA序列

词(word):由,,,组成的在样本中重复至少两次的字符串

关键词(keyword):能代表A类或B类的特征由a,c,t,g组成的词

分散度():指某一类中包含某个word的DNA序列的个数

出现次数():某一字符串在DNA序列中的出现次数

序列长度():DNA序列的长度

字符串长():字符串的长度

4

标准化频率():=标准化了的词的出现次数

优先级函数():衡量词重要性的指标,是和的函数

权值(D):衡量DNA序列类别特征的量化指标

5模型的建立与求解

(1)Keywords的选择

选择keyword是所有工作的基础,

文档评论(0)

1亿VIP精品文档

相关文档