- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DNA序列的分类问题的重述-ColumbiaEE
DNA 序列的分类
DNA 序列的分类
韩轶平,余杭,刘威
指导老师:杨启帆
(浙江大学,杭州 310027 )
(浙江大学,杭州 310027 )
编者按 : 本文借助于计算机符号处理的能力来把握序列中不同碱基的丰度特征,从而进行了利用数理统计
方法的分类研究。而后引入相关度分类判别算法及反馈机制来比较碱基的相对位置,在既定方向上颇具新
意地把工作推向深入。不足之处在于,未能使用相关度工具对各类样本分别进行分析;此外,“纯数学”必
须与其他学科紧密结合才会有优秀的建模工作,本文虽然对编码氨基酸的三联体进行初步探讨,着墨处自
是轻淡许多。
摘要 : 本文对 A 题中给出的 DNA 序列分类问题进行了讨论。从“不同序列中碱基含量不同”入手建立了欧
氏距离判别模型,马氏距离判别模型以及Fisher准则判定模型;又从“不同序列中碱基位置不同”入手建
立了利用序列相关知识的相关度分类判别算法,并进一步研究了带反馈的相关度分类判别算法。对于题中
所给的待分类的人工序列和自然序列,本文都一一作了分类。接着,本文又对其它各种常见的分类算法进
行了讨论,并着重从分类算法的稳定性上对几种方法作了比较。
1.问题的重述
1.1 背景
人类基因组中的DNA全序列是由 4 个碱基 A, T, G, C 按一定的顺序排成的长
约 30 亿的序列。除了这 4 种碱基以外,人们对它包含的内容知之甚少。尽管如
此,人类还是发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些
适用于编码蛋白质的序列片断,即有这 4 个碱基组成的 64 种不同的三核苷酸,
其中大多数用于编码构成蛋白质的 20 种氨基酸。又例如,在不用于编码蛋白质
的序列片断中,A 和 T 的含量特别多些,于是以某些碱基特别丰富作为特征去研
究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些
片断之间具有相关性,等等。这些发现让人们相信DNA序列中存在着局部的和全
局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这
项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当
的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。
1.2 问题
有 20 个已知类别的人工制造的样本序列 ,其中序列标号 A1-A10 为 A 类,
A11-A20为B类。要求从中提取特征,构造分类方法,并用这些已知类别的序列,
衡量分类方法是否足够好。然后对另外未标明类别的 20 个人工 DNA 序列(标号
1
DNA 序列的分类
A21-A40)和182个自然DNA序列(标号N1-N182)进行分类。
2.模型的条件和假设
2.1 题目数据中的错误
在题目所给定的数据中,我们发现了有几组数据存在着不同程度的错误,在
数据文件中出现了 s, n, w, r, y 五种不代表碱基的字母(参看附录)。对于这样的
情况,我们认为存在两种处理方法:第一,这些含有这些无意义字母的碱基序列
作为不可判类处理;第二,考虑到在一长度很大的碱基序列中出现很少量的错误
不会影响到序列的全局特征,可以采用将无意义字母简单删去的方法来处理。本
文采用后一种方式。
2.2 正态分布假设
对于特定的一种生物我们认为其DNA序列中各种碱基的含量服从正态分布。
3.符号约定
na :任一给定序列中碱基A 的百分含量;
ng :任一给定序列中碱基 G 的百分含量;
nt : 任一给定序列中碱基T 的百分含量;
nc : 任一给定序列中碱基C 的百分含量;
G : 由某些具有相同属性的个体组成的类。
i
4.问题的分析和解答
4.1 概述
根据题意,我们首先要提取出一个序列的特征,然后给出它的数学表示,最
后选择并构造基于这种数学表示的分类方法。对于一个任意一个DNA序列,我们
认为,反映该序列特征的方面有两个:
1.碱基的含量,反映了该序列的内容;
2.碱基的排列情况,反映了该序列的形
您可能关注的文档
- 2009年工程建设领域行业标准复审结论表-中国定额网.PDF
- 2018年研究生入学考试科目-中国地质大学武汉工程学院.PDF
- 2012年北京房屋修缮工程计价依据——预算定额勘误表2013年6.PDF
- 360智慧城网络信息安全建设框架思路-360企业安全集团.PDF
- Ct有源重低音SKW-204使用手册.PDF
- ArcGIS在气象短临监测预警业务系统的开发与应用-干旱气象.PDF
- ASIC设计和应用概论11引言12电子系统设计技术12电子电路.PDF
- DZJ2激光垂准仪-苏州一光仪器有限公司.PDF
- FCM8201应用手册三相正弦波直流无刷电机控制器-BDTIC.PDF
- EDXRF分析聚乙烯塑料中有害元素Cr-ThermoFisherScientific.PDF
- G1001GBT964910-2009地质矿产术语分类代码第10部分岩石学.PDF
- GBT256372010建筑施工机械与装备混凝土搅拌机-建筑材料工程.PDF
- GBT168862003医疗器械生物学评价第4部分与血液相互作用试验.PDF
- GB/T9711材料屈服极限和压力使用范围的探讨-天然气工业.PDF
- GC-FID法测定饮料中邻苯二甲酸酯类物质残留量-ThermoFisher.PDF
- GNSO关于到期后域名恢复的问题报告-icann.PDF
- GPP桥堆基础知识-乐山希尔电子股份有限公司.PDF
文档评论(0)