DNA 讲解.docVIP

下载本文档

2
0
约2.91千字
约 7页
2018-03-09 发布于河南
举报
版权申诉

DNA 讲解.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DNA 讲解

DNA序列分类（2000年A题）没有标准答案，以浙江大学（韩轶平）为主。一、解决问题的思路学习样品1－20；判断样品 21—40。根据学习样品1－20，提取A、B两类的特征，构造判断规则。二、对于每一个DNA序列，按照a c g t在其中出现的频率分类 ———— a的百分含量 ———— c的百分含量 ———— g 的百分含量 ———— t的百分含量则。对于每一个DNA序列都唯一对应一个三维向量，称为特征向量。按照样品的编号，各个样品的特征向量记为。对于每个已知的学习样品，都有或。可以根据统计的方法找出A、B两类特征向量的总体特点或差异。再对于未知类别的样品，根据它的特征向量与A、B两类特征向量的相似程度判别它所属的类型。 “物以类聚，人以群分” 如何判断一颗恒星是否属于银河系假定：① 碱基的含量反映了DNA序列的内容 ② 同类的DNA“聚集”在一起距离空间是一个集合，对于任何都唯一确定一个实数。如果满足以下三条公理，则称是一个距离空间，称为定义在上的距离。 ① 非负性：；当且仅当时 ② 对称性： ③ 三角不等式：如，空间中两点之间的距离为称为这两点间的欧氏距离。又如向量，，它们的距离可以定义为则，也称为与的欧氏距离，通常记为可验证，对于任何三阶的正定矩阵，也是与的距离。这说明一个集合上可以定义不同的距离。又如，，可以定义不同的距离：对于， 1．欧氏（Euclid）距离分类模型将每个样品的特征向量视为三维空间中的一个点。 A类的几何中心为； B类的几何中心为，分别计算每个判断样品到两类中心的距离；。判别准则 1）若，则 2）若，则 3）若，则不可判别 2．马氏（Mahalanobis）距离分类模型将都看作随机向量。将学习样品A 与 B分别看作两个总体。则到A的几何中心的马氏距离定义为，其中是A协方差阵（正定）。同理到B的几何中心的马氏距离为，其中是B协方差阵（正定）。判别准则 1）若，则 2）若，则 3）若，则不可判别 3．Fisher分类模型此种分类模型是将高维的分类问题降维处理。如图：红点和黑点分别表示两类样品。如果将样品都投影到x轴上，则两类投影点就混杂在一起而不易区分。而如果投影到u轴上，则它们就很明显地分开了。设它表示了空间中的一个方向。我们希望将所有的样品向量投影到方向上，使得A B两类能很明显的区分开。样品向量在方向上的投影值为它们的点积。的选择应使得同一类的投影值尽量靠拢，不同的投影值尽量拉开，。根据学习样品计算得到（Fisher选择算法）。设A、B两类在方向上的投影的中心值（平均值）分别是。判断样品在上的投影值为。到A B的距离分别为和。判别准则 1）若，则 2）若，则 3）若，则不可判别将上述三种判别法回代到学习样品中去检验，除第四号DNA被错判为B外，其它都正确。正确率达95％。对于判断样品21—40，当上述三个判别都一致时认为判别有效，否则认为是无效的。判别无效的DNA序列为 30、32、33、39。 4．相关性判别准则（中国科技大学唐诗杰）对于每一个样品对应一个向量。将其单位化对于学习样品中的A B两类，按照此方法构造两个单位化的向量组。对于判别样品也单位化，它与A、 B两类的相关度定义为：，判别准则 1）若，则 2）若，则回代检验的结果与前三个是一样的，第四号DNA被错判，正确率95％。（未明确）这种做法与欧氏距离模型的做法是等价的。由线性代数的知识可知，两个向量定义内积（点积）之后可导出两个向量的距离：。于是当都是单位向量时于是，从而有。由此可以看到的距离越大，它们的相关性越小。二、按碱基的字符串分类碱基出现的频率不能体现碱基排列次序的信息，如在英文中eat 和tea。尽管各个字母出现的频率是一样的，但是表达的信息是不同的。从而应考虑碱基排列次序所表示的信息建立分类模型。假定：① 碱基的排列情况，反映了该序列的内容 ② 同类的DNA应有相互类似的碱基排列定义相关运算，其中取值于和。称为哑元，并规定对于任何都有。其运算率见表 a c g t o a 1 0 0 0 0 c 0 1 0 0 0 g 0 0 1 0 0 t 0 0 0 1 0 o 0 0 0 0 0 对于一个长度为的DNA序列将它扩充为一个无穷序列，其中。对于两个长度分别为的序列定义它们的相关序列为，。（序列卷积）如下表： a a t …. o …. …. o …. …. …. o o o …. …. ….