生物数学模型第7讲-扩展--DNA序列分类模型研究(1).ppt

下载文档

0
0
约5.21千字
约 39页
2019-04-01 发布于江苏
举报
版权申诉
保障服务

生物数学模型第7讲-扩展--DNA序列分类模型研究(1).ppt

1、本文档共39页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

虽然全序列图绘制成功，但这个几十亿的长序列中既没有断句,也没有标点符号，除了这4个字符表示4种碱基以外，人们对它包含的“内容”知之甚少，难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中，研究DNA全序列具有什么结构，由这4个字符排成的看似随机的序列中隐藏着什么规律，又是解读这部天书的基础，是生物信息学（Bioinformatics）最重要的课题之一。但人们也发现了DNA序列中的一些规律性和结构。例如，在全序列中有一些是用于编码蛋白质的序列片段，即由这4个字符组成的64种不同的3字符串，其中大多数用于编码构成蛋白质的20种氨基酸。又例如，在不用于编码蛋白质的序列片段中，A和T的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外，利用统计的方法还发现序列的某些片段之间具有相关性，等等。这些发现让人们相信，DNA序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节，突出特征，然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。序列 1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg 2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga 方法1 基于字母出现频率的分类方法一评价方法一是从概率统计的角度分析问题局限性：统计字母出现的频率时，忽略了字母所在位置以及各个字母之间的相互关系，造成用这种方法对已知分类的序列进行检验时，个别频率特性不明显的序列不太容易分类，所以这种方法虽然有其科学性，但还不够完善，不能完全体现序列的所有特征。方法二基于字母出现周期性方法三讨论这种方法从序列的信息量（熵）入手，认为当序列中有大量的重复元素时，信息量就会比重复少的序列所含有的信息少，所以，其侧重点是是序列前后的重复性，也就是序列元素的相关性。从A、B两类数据中可以很清楚地看到B组中序列重复量大，所含的信息明显少于A组。而这个特征就被我们定义的熵函数凸显出来。将DNA序列看成一个信息流的方法由于其在实际问题中的广泛背景，将会是一个很有价值的想法。统计学和信息论的一套非常成熟的强大工具也会在DNA研究中发挥巨大的作用。方法四　常规数学模型 A 欧氏距离(Euclid)分类模型把每个样本视为三维空间的一个点，以其到不同集合几何中心的欧氏距离作为判据，具体的算法如下： 1、计算属于A类与属于B类的20个样本点集合各自的几何中心: 2、对于给定的样本点Xi，分别计算该点到CA,CB的的欧氏距离：模型评价用欧氏距离作为判据虽然简便直观，但存在着明显的缺陷。从概率统计的角度来看，用欧氏距离描述随机点之间的距离并不好。因此当待分类样本是随机样本，具有一定的统计性质时，这个模型并不能很好的描述两个随机点之间的接近程度。 B 氏距离（Mahalanobis)分类模型　　　为了克服采用欧氏距离时的缺陷，我们采用马氏距离来代替欧氏距离。马氏距离定义为： C　Fisher准则分类模型 Fisher分类法是另一种基于几何特性的分类法分类法的思想也是把三维空间的样本映射为一维的特征值y 具体的作法是先引入一个与样本同维的待定向量u，令y=uTx u的选取,要使同一类别产生的y尽量聚拢,不同类别产生的y尽量拉开方法四三种分类模型的比较有的未知序列，三种方法给出了不同结果对于任一个序列，当三种分类法结果完全一致时，认为它判别有效。对于任一个序列，当三种分类法结果不完全一致时，认为该序列为不可判类。方法五基于碱基相关性的分类模型通常任意两个数值序列的相关性都是通过这两个序列的相关函数来刻画的，由于本序列是非数值的序列，同时无法将碱基按通常的方式进行数值化，因而刻画任意两个序列的相关程度的变量需要重新定义! 基于相关度的分类算法 1、对于任意一个未知序列S将其与序列A1－A20中的每一个依次作求相关度的运算，结果记为SS1,SS2,…SS20。 2、定义S与A、B类的平均相关度分别为 3、判别准则　　　若SA＞SB，则将S判定给A类　　　若SB＞SA，则将S判定给B类　　　若SA＝SB，则将S列为不可判类方法五的改进带反馈的相关度分类算法一