基于数学建模方法对DNA序列分类探究.docVIP

  • 10
  • 0
  • 约 6页
  • 2017-08-18 发布于福建
  • 举报

基于数学建模方法对DNA序列分类探究.doc

基于数学建模方法对DNA序列分类探究

基于数学建模方法对DNA序列分类探究摘?要 运用模糊聚类数学建模方法对DNA序列进行分类。对T和G碱基在各DNA序列中所占的比例数据进行标准化处理,放大两类DNA序列的差异,采用模糊相似矩阵,模糊等价矩阵,λ截矩阵比较方法进行DNA序列分类。 关键词 模糊聚类分析;DNA分类;数学建模 中图分类号 O242 文献标识码 A 文章编号 1673-9671-(2012)052-0202-02 1 概述 2000年6月,人类基因组计划中DNA全序列草图完成。DNA序列由A、T、C、G4种碱基按一定规律排列而成。当前生物信息学最重要的课题之一是研究由这4种碱基排列成的序列中蕴藏的规律。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究其规律性和结构。现已知20个人工序列1~10属于A类,11~20属于B类,要求运用数学建模方法发掘已知类别DNA序列的特征,从而据此对未知类别的20个DNA序列进行分类。本文对T和G碱基在各DNA序列中所占的比例数据进行标准化处理,放大两类DNA序列的差异,采用模糊相似矩阵,模糊等价矩阵,λ截矩阵方法对DNA序列进行分类。 2 模糊聚类分析模型 2.1 主要研究步骤 通过观察发现,A类DNA序列中G碱基含量较多,T碱基含量较少,而B类DNA序列则刚好相反。所以可用这20条DNA序列中T和G碱基在自身序列中所占的频率作为基本研究对象,并对T、G碱基所占的比例的原始数据进行标准化,放大差异。再建立相应的模糊相似矩阵,模糊等价矩阵和λ截矩阵,找出一个最优的λ值进行DNA序列分类并使分类准确度达到最高。最后用上述方法以及λ值对另外20个未明类别的序列进行分类。 2.2 原始数据标准化 先对T和G碱基频率作标准化处理。平移—标准差变换 (i=1,2…,20;j=2,4) 其中xi是第i个DNA序列,x’ij是指碱基A,G,C,T在第i个DNA序列中出现的频率,x”ij是对x’ij进行标准化后的标准频率值, ,,(j=2,4)。 进行平移—极差变换,(j=2,4), 可得到关于碱基频率的模糊矩阵 2.3 模糊聚分析法 相关系数刻画随机变量之间的线性相关性:相关系数绝对值越大,随机变量之间的线性关系越密切;相关系数为0,称随机变量线性无关。所以利用相关系数法对碱基频率模糊矩阵的元素进行处理,利用公式: 得到一个关于xi与xj相似程度的模糊相似矩阵rij。 如果xi与xj的相似程度为rij,那么模糊矩阵R=(rij)20×20,显然R是模糊相似矩阵,为 为了从模糊相似矩阵R得到模糊等价矩阵R=(rij)n×n,从n阶模糊相似矩阵R出发,依次求平方R→R2→R4→…直到R2i×R2i=R2i(2i≤n,i≤log2n),求出R传递闭包t(R),则t(R)=R。对于已知分类的20条DNA序列,由大到小取一组λ∈[0,1],确定相应的λ截矩阵Rλ=(λij)20×20,且λ截矩阵为一个对角线为1的对称0-1矩阵。即可将其分类:若λij=1,说明第i条DNA序列与第j条DNA序列属于同一类。若λij=0,说明第i条DNA序列与第j条DNA序列不属于同一类。对于未分类的DNA序列,利用已求出的λ值,得到相应λ截矩阵,再利用已知λ值便可对未分类的DNA序列进行分类。 2.4 分类结果及其分析 应用Matlab软件对第1-20个DNA序列数据进行处理,经平移-极差变得到类别A、B中A、T、C、G碱基的标准化频率(表1)。 可得到标准化矩阵: 那么得到表示这1-20个DNA序列之间的相关程度的模糊相似矩阵: 进而求得传递闭包t(R)及模糊相似矩阵RR=t(R)。对模糊等价矩阵R进行分析,发现选取λ∈(0.8714,0.9834)会得到最高的准确 率,高达100%,识别率为90%,没有出现误判。计算时可取平均值λ=0.9764,得到λ截矩阵Rλ=(λij)20×20。对于λ截矩阵Rλ=(λij)20×20,若λij=1,说明第i条DNA序列与第j条DNA序列属于同一类;若λij=0,则说明第i条DNA序列与第j条DNA序列不属于同一类。最后得到分类结果: A{1,2,3,5,6,7,8,9,10} B{11,12,13,14,15,16,18,19,20} C类(无法识别){4,17}。 采用以上方法对第1-20个DNA序列分类的准确率为100%,识别率为90%,没有出现误判。把标号为21-40的DNA序列添加到原来的数据中,采用同样的模型与已求出的λ值对其进行分类,结 果为: A类{22,23,25,27,29,33,34,35,3

文档评论(0)

1亿VIP精品文档

相关文档