- 10
- 0
- 约 6页
- 2017-08-18 发布于福建
- 举报
基于数学建模方法对DNA序列分类探究
基于数学建模方法对DNA序列分类探究摘?要 运用模糊聚类数学建模方法对DNA序列进行分类。对T和G碱基在各DNA序列中所占的比例数据进行标准化处理,放大两类DNA序列的差异,采用模糊相似矩阵,模糊等价矩阵,λ截矩阵比较方法进行DNA序列分类。
关键词 模糊聚类分析;DNA分类;数学建模
中图分类号 O242 文献标识码 A 文章编号 1673-9671-(2012)052-0202-02
1 概述
2000年6月,人类基因组计划中DNA全序列草图完成。DNA序列由A、T、C、G4种碱基按一定规律排列而成。当前生物信息学最重要的课题之一是研究由这4种碱基排列成的序列中蕴藏的规律。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究其规律性和结构。现已知20个人工序列1~10属于A类,11~20属于B类,要求运用数学建模方法发掘已知类别DNA序列的特征,从而据此对未知类别的20个DNA序列进行分类。本文对T和G碱基在各DNA序列中所占的比例数据进行标准化处理,放大两类DNA序列的差异,采用模糊相似矩阵,模糊等价矩阵,λ截矩阵方法对DNA序列进行分类。
2 模糊聚类分析模型
2.1 主要研究步骤
通过观察发现,A类DNA序列中G碱基含量较多,T碱基含量较少,而B类DNA序列则刚好相反。所以可用这20条DNA序列中T和G碱基在自身序列中所占的频率作为基本研究对象,并对T、G碱基所占的比例的原始数据进行标准化,放大差异。再建立相应的模糊相似矩阵,模糊等价矩阵和λ截矩阵,找出一个最优的λ值进行DNA序列分类并使分类准确度达到最高。最后用上述方法以及λ值对另外20个未明类别的序列进行分类。
2.2 原始数据标准化
先对T和G碱基频率作标准化处理。平移—标准差变换
(i=1,2…,20;j=2,4)
其中xi是第i个DNA序列,x’ij是指碱基A,G,C,T在第i个DNA序列中出现的频率,x”ij是对x’ij进行标准化后的标准频率值,
,,(j=2,4)。
进行平移—极差变换,(j=2,4),
可得到关于碱基频率的模糊矩阵
2.3 模糊聚分析法
相关系数刻画随机变量之间的线性相关性:相关系数绝对值越大,随机变量之间的线性关系越密切;相关系数为0,称随机变量线性无关。所以利用相关系数法对碱基频率模糊矩阵的元素进行处理,利用公式:
得到一个关于xi与xj相似程度的模糊相似矩阵rij。
如果xi与xj的相似程度为rij,那么模糊矩阵R=(rij)20×20,显然R是模糊相似矩阵,为
为了从模糊相似矩阵R得到模糊等价矩阵R=(rij)n×n,从n阶模糊相似矩阵R出发,依次求平方R→R2→R4→…直到R2i×R2i=R2i(2i≤n,i≤log2n),求出R传递闭包t(R),则t(R)=R。对于已知分类的20条DNA序列,由大到小取一组λ∈[0,1],确定相应的λ截矩阵Rλ=(λij)20×20,且λ截矩阵为一个对角线为1的对称0-1矩阵。即可将其分类:若λij=1,说明第i条DNA序列与第j条DNA序列属于同一类。若λij=0,说明第i条DNA序列与第j条DNA序列不属于同一类。对于未分类的DNA序列,利用已求出的λ值,得到相应λ截矩阵,再利用已知λ值便可对未分类的DNA序列进行分类。
2.4 分类结果及其分析
应用Matlab软件对第1-20个DNA序列数据进行处理,经平移-极差变得到类别A、B中A、T、C、G碱基的标准化频率(表1)。
可得到标准化矩阵:
那么得到表示这1-20个DNA序列之间的相关程度的模糊相似矩阵:
进而求得传递闭包t(R)及模糊相似矩阵RR=t(R)。对模糊等价矩阵R进行分析,发现选取λ∈(0.8714,0.9834)会得到最高的准确
率,高达100%,识别率为90%,没有出现误判。计算时可取平均值λ=0.9764,得到λ截矩阵Rλ=(λij)20×20。对于λ截矩阵Rλ=(λij)20×20,若λij=1,说明第i条DNA序列与第j条DNA序列属于同一类;若λij=0,则说明第i条DNA序列与第j条DNA序列不属于同一类。最后得到分类结果:
A{1,2,3,5,6,7,8,9,10}
B{11,12,13,14,15,16,18,19,20}
C类(无法识别){4,17}。
采用以上方法对第1-20个DNA序列分类的准确率为100%,识别率为90%,没有出现误判。把标号为21-40的DNA序列添加到原来的数据中,采用同样的模型与已求出的λ值对其进行分类,结
果为:
A类{22,23,25,27,29,33,34,35,3
您可能关注的文档
最近下载
- 升压站施工施工组织设计、方案、技术标书.pdf
- 人力资源规划方案(最新版,附人员配置表).docx VIP
- 《家族办公室财富服务协议合同》.doc VIP
- 医疗机构药事管理规定(国卫医政发〔2025〕23号,附解读).docx VIP
- 2026年山东商务职业学院单招职业技能考试题库最新.docx VIP
- 2025年人教版化学九年级上册期末质量检测卷(附答案解析).docx VIP
- 早产儿体位性颅型异常防治专家共识(2026).pptx VIP
- 20231126-方正证券-雅克科技-002409-公司深度报告:国产前驱体龙头,打造新兴材料平台.pdf VIP
- C1701C在恒温电烙铁中的应用.docx VIP
- 人教版七年级数学下册全册教案(2025春新版本).pdf
原创力文档

文档评论(0)