DNA 讲解.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DNA 讲解

DNA序列分类 (2000年A题) 没有标准答案,以浙江大学 (韩轶平)为主。 一、解决问题的思路 学习样品1-20; 判断样品 21—40。 根据学习样品1-20,提取A、B两类的特征,构造判断规则。 二、对于每一个DNA序列,按照a c g t在其中出现的频率分类 ———— a的百分含量 ———— c的百分含量 ———— g 的百分含量 ———— t的百分含量 则 。 对于每一个DNA序列都唯一对应一个三维向量,称为特征向量。 按照样品的编号,各个样品的特征向量记为。 对于每个已知的学习样品,都有或。可以根据统计的方法找出A、B两类特征向量的总体特点或差异。再对于未知类别的样品,根据它的特征向量与A、B两类特征向量的相似程度判别它所属的类型。 “物以类聚,人以群分” 如何判断一颗恒星是否属于银河系 假定:① 碱基的含量反映了DNA序列的内容 ② 同类的DNA“聚集”在一起 距离空间 是一个集合,对于任何都唯一确定一个实数。 如果满足以下三条公理,则称是一个距离空间, 称为定义在上的距离。 ① 非负性:;当且仅当时 ② 对称性: ③ 三角不等式: 如,空间中两点之间的距离为 称为这两点间的欧氏距离。 又如向量,,它们的距离可以定义为 则,也称为与的欧氏距离,通常记为 可验证,对于任何三阶的正定矩阵, 也是与的距离。 这说明一个集合上可以定义不同的距离。 又如,,可以定义不同的距离:对于 , 1.欧氏(Euclid)距离分类模型 将每个样品的特征向量视为三维空间中的一个点。 A类的几何中心为 ; B类的几何中心为 , 分别计算每个判断样品到两类中心的距离;。 判别准则 1)若,则 2)若,则 3)若,则 不可判别 2.马氏(Mahalanobis)距离分类模型 将都看作随机向量。将学习样品A 与 B分别看作两个总体。 则到A的几何中心的马氏距离定义为 , 其中 是A协方差阵(正定)。 同理到B的几何中心的马氏距离为 , 其中是B协方差阵(正定)。 判别准则 1)若,则 2)若,则 3)若,则 不可判别 3.Fisher分类模型 此种分类模型是将高维的分类问题降维处理。 如图:红点和黑点分别表示两类样品。 如果将样品都投影到x轴上,则两类投影点就混杂在一起而不易区分。而如果投影到u轴上,则它们就很明显地分开了。 设它表示了空间中的一个方向。我们希望将所有的样品向量投影到方向上,使得A B两类能很明显的区分开。样品向量在方向上的投影值为它们的点积 。的选择应使得同一类的投影值尽量靠拢,不同的投影值尽量拉开,。 根据学习样品计算得到(Fisher选择算法)。 设A、B两类在方向上的投影的中心值(平均值)分别是。判断样品在上的投影值为。到A B的距离分别为和。 判别准则 1)若,则 2)若,则 3)若,则 不可判别 将上述三种判别法回代到学习样品中去检验,除第四号DNA被错判为B外,其它都正确。正确率达95%。 对于判断样品21—40,当上述三个判别都一致时认为判别有效,否则认为是无效的。 判别无效的DNA序列为 30、32、33、39。 4.相关性判别准则(中国科技大学 唐诗杰) 对于每一个样品对应一个向量。 将其单位化 对于学习样品中的A B两类,按照此方法构造两个单位化的向量组 。对于判别样品也单位化,它与A、 B两类的相关度定义为: , 判别准则 1)若 ,则 2)若 ,则 回代检验的结果与前三个是一样的,第四号DNA被错判,正确率95%。(未明确) 这种做法与欧氏距离模型的做法是等价的。 由线性代数的知识可知,两个向量定义内积(点积)之后可导出两个向量的距离: 。 于是 当都是单位向量时 于是, 从而有。 由此可以看到的距离越大,它们的相关性越小。 二、按碱基的字符串分类 碱基出现的频率不能体现碱基排列次序的信息,如在英文中eat 和tea。尽管各个字母出现的频率是一样的,但是表达的信息是不同的。从而应考虑碱基排列次序所表示的信息建立分类模型。 假定:① 碱基的排列情况,反映了该序列的内容 ② 同类的DNA应有相互类似的碱基排列 定义相关运算 ,其中 取值于和。称为哑元,并规定对于任何都有。其运算率见表 a c g t o a 1 0 0 0 0 c 0 1 0 0 0 g 0 0 1 0 0 t 0 0 0 1 0 o 0 0 0 0 0 对于一个长度为的DNA序列将它扩充为一个无穷序列 , 其中。对于两个长度分别为的序列定义它们的相关序列为,。(序列卷积) 如下表: a a t …. o …. …. o …. …. …. o o o …. …. ….

文档评论(0)

qwd513620855 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档