- 5
- 0
- 约6.37千字
- 约 10页
- 2017-03-28 发布于上海
- 举报
用判別分析的方法判定DNA序列的类别数学建模专业论文
用判别分析的方法判定DNA序列的类别
摘 要
判别分析法是多元统计分析中的重要内容之一。近年来,人们用判别分析的方法解决了不少在生产科研和日常生活中的实际问题。本文用Fisher判别的思想,从变量检验入手,给出了对DNA序列进行不同分类的理论依据,并探讨错判概率与判别效率之间的关系。通过对检验样本的回报情况分析可知,本文所建立的模型分辨率高(95%),错判率低(1%),简单而易于运行,适合于各种长度的DNA序列的分类,因此实用性强,有较高的理论价值,为多元统计分析方法在生物信息学领域中应用的又一典型实例。
关键词:DNA序列、Fisher判别法、判别函数、错判率。
一、问题提出
1.背景
人类基因组计划中的DNA全序列图是一本记录着人类自生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A、C、G、T按一定的顺序排成的长约30亿的序列,其中没有断句,也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的内容知之甚少,难以读懂 ,破译这部世界上最巨量信息的“天书”是二十世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。对DNA序列的逐步认识让人们相信DNA序列中存在着局部的和全局的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。
2.问题
有20个已知类别的人工序列:A类,B类。
1. 从中提取特征,构造模型,找出合适的分类方法,并用该法对另20个给出的未知类别的人工序列进行分类,要求详述方法及给出计算程序。
2..对另给出的182个自然序列进行分类。
二.问题的分析
本题重在从已知类别的DNA序列中提取某些特征,构造分类方法,提取的某些特征应满足以下条件:
来源于已知样本。
具有给予未知类别的DNA序列分类的功能。
能较好的接受检验样本的检验。
全部地考虑各种因素(如碱基的排列组合,碱基间的键强及键长等等),无法得到分类方法。忽略以上特征,突出A、C、G、T在DNA序列中出现的频数,对这个特征利用多元统计分析方法可以达到要求。判别分析法对分类问题有着较强的适合性,而在Fisher判别法,Bayes判别法,距离判别法等方法中,Fisher判别法条件更宽、更通用。
三、符号与假设
主要假设
分析DNA序列时,不考虑A、C、T、G出现的顺序。
忽略碱基间间键的强弱、长短。
假设文中较小容量的子样能体现母体的一些统计特性。
认为DNA序列中A、C、G、T的出现是独立的。
DNA序列中A、C、G、T对DNA序列的影响是平等的。
将A类误判为B类与将B类误判为A类的损失是相等的。
符号的说明
Vi(i=1、2): 协差矩阵
Di(i=1、2): 判别区域
△(u): 判别效率
W(y)、u(y): 判别函数
∏1、∏2: 随机向量母体
Ei( i=1、2): 随机向量的均值
Ф(u),ф(u): 分别为标准正态分布的分布函数与分布密度
V-1: 矩阵的逆
uτ: 向量u的转置
四、模型的建立
模型的提出(Fisher判别准则)
Fisher判别准则是借助于方差分析的思想来导出判别函数,此判别函数可以是线性的,也可以是一般的Borel函数。
设有两个母体∏1、∏2,相应的均值、协差阵分别为E1、E2 与V1、V2;任取一样本个体y(n维向量),考虑其线性函数u(y)=uτy(其中u为已知的n维向量),则在y来自∏i条件下均值与方差分别为
ei =E(u(y)︱∏i)=uτEi i=1、2
v i2=V(u(y)︱∏i)=uτVi u i=1、2
令B0= E0=
Fisher准则是适当选择u,使得 △(u) =B0/E0达到最大,此△(u)称为判别效率。
一般地,我们有
引理1 若V1+V2的逆存在,则Fisher准则下的线性判别函数与判别效率分别为
u(y)=yτ(V1+V2)-1(E1-E2) △(u)=1/2(E1-E2)τ(V1+V2)-1(E1-E2)
故 u=(V1+V2)-1(E1-E2)
证明:见《多元统计分析引论》(方开泰,第四章定理3、1的系)
Fisher准则的理论意义之一在于将制定判别规则转为讨论一维随机变量
而对u(y)(一维随机变量)的讨论包含在距离判别法中。
引理二 设有两个母体 ∏1、∏2 , 它们的均值、协差矩阵分
您可能关注的文档
- 現浇钢筋混凝土单向板肋梁楼盖课程设计稿.doc
- 現浇钢筋混凝土框架结构毕业设计稿.doc
- 球形頂盖注塑模设计稿毕业设计稿专业论文.doc
- 現场生产作业管理讲义.ppt
- 現金流量表及其分析研究过程材料.doc
- 現阶段我国中小型企业融资的切实选择.doc
- 球墨鑄铁钢管给水工程施工组织设计稿.doc
- 理學院教学规章制度.doc
- 球墨鑄铁管、钢管顶管穿路工程施工方案.doc
- 理工學院消防安全知识试题及答案.doc
- 非遗文化视角下的小学美术教学实践与教学效果评估论文.docx
- 基于ESP8266的智能插座用电量监测系统在商业建筑中的应用论文.docx
- 小学公共卫生设施与校园安全管理的协同研究论文.docx
- 小学英语:树叶主题英语歌曲学习与演唱论文.docx
- 小学科学展览课:校园植物病虫害防治展览设计与教学实践论文.docx
- 初中英语课堂中口语表达与跨文化交际能力的融合研究论文.docx
- 初中生物实验:校园昆虫生态实验设计与实践论文.docx
- 初中英语项目式学习与英语教师专业发展的关联研究论文.docx
- 初中数学教学中培养学生解决问题能力的策略分析论文.docx
- 初中生艺术社团活动参与度与学生学业成就的关系探讨论文.docx
最近下载
- 银行消防演练预案银行消防应急演练方案.docx VIP
- 聚酰胺纤维染色用染料亲和聚酰胺纤维染色用染料亲和型匀染剂.PDF VIP
- 数据保护安全解决方案模板.doc VIP
- TCESA-2024-075《类脑计算芯片测试方法》.pdf VIP
- 2025最新小学五年级语文上册“病句修改”专项突破训练.docx
- 上海能做危险品国际运输的货代,一般要满足哪些硬性条件?.docx VIP
- DB31T 1455-2023 青少年社会工作服务实施指南.pdf VIP
- 银行消防演练预案银行消防应急演练方案.doc VIP
- 区域性矿山隐蔽致灾因素普查报告编制工作方案投标文件(技术方案).doc
- 计量支付监理实施细则.docx VIP
原创力文档

文档评论(0)