- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DNA 讲解
DNA序列分类
(2000年A题)
没有标准答案,以浙江大学 (韩轶平)为主。
一、解决问题的思路
学习样品1-20; 判断样品 21—40。
根据学习样品1-20,提取A、B两类的特征,构造判断规则。
二、对于每一个DNA序列,按照a c g t在其中出现的频率分类
———— a的百分含量 ———— c的百分含量
———— g 的百分含量 ———— t的百分含量
则 。
对于每一个DNA序列都唯一对应一个三维向量,称为特征向量。
按照样品的编号,各个样品的特征向量记为。
对于每个已知的学习样品,都有或。可以根据统计的方法找出A、B两类特征向量的总体特点或差异。再对于未知类别的样品,根据它的特征向量与A、B两类特征向量的相似程度判别它所属的类型。
“物以类聚,人以群分”
如何判断一颗恒星是否属于银河系
假定:① 碱基的含量反映了DNA序列的内容
② 同类的DNA“聚集”在一起
距离空间
是一个集合,对于任何都唯一确定一个实数。
如果满足以下三条公理,则称是一个距离空间, 称为定义在上的距离。
① 非负性:;当且仅当时
② 对称性:
③ 三角不等式:
如,空间中两点之间的距离为
称为这两点间的欧氏距离。
又如向量,,它们的距离可以定义为
则,也称为与的欧氏距离,通常记为
可验证,对于任何三阶的正定矩阵, 也是与的距离。
这说明一个集合上可以定义不同的距离。
又如,,可以定义不同的距离:对于
,
1.欧氏(Euclid)距离分类模型
将每个样品的特征向量视为三维空间中的一个点。
A类的几何中心为 ;
B类的几何中心为 ,
分别计算每个判断样品到两类中心的距离;。
判别准则
1)若,则
2)若,则
3)若,则 不可判别
2.马氏(Mahalanobis)距离分类模型
将都看作随机向量。将学习样品A 与 B分别看作两个总体。
则到A的几何中心的马氏距离定义为
,
其中 是A协方差阵(正定)。
同理到B的几何中心的马氏距离为
,
其中是B协方差阵(正定)。
判别准则
1)若,则
2)若,则
3)若,则 不可判别
3.Fisher分类模型
此种分类模型是将高维的分类问题降维处理。
如图:红点和黑点分别表示两类样品。
如果将样品都投影到x轴上,则两类投影点就混杂在一起而不易区分。而如果投影到u轴上,则它们就很明显地分开了。
设它表示了空间中的一个方向。我们希望将所有的样品向量投影到方向上,使得A B两类能很明显的区分开。样品向量在方向上的投影值为它们的点积 。的选择应使得同一类的投影值尽量靠拢,不同的投影值尽量拉开,。
根据学习样品计算得到(Fisher选择算法)。
设A、B两类在方向上的投影的中心值(平均值)分别是。判断样品在上的投影值为。到A B的距离分别为和。
判别准则
1)若,则
2)若,则
3)若,则 不可判别
将上述三种判别法回代到学习样品中去检验,除第四号DNA被错判为B外,其它都正确。正确率达95%。
对于判断样品21—40,当上述三个判别都一致时认为判别有效,否则认为是无效的。
判别无效的DNA序列为 30、32、33、39。
4.相关性判别准则(中国科技大学 唐诗杰)
对于每一个样品对应一个向量。
将其单位化
对于学习样品中的A B两类,按照此方法构造两个单位化的向量组
。对于判别样品也单位化,它与A、 B两类的相关度定义为:
,
判别准则
1)若 ,则
2)若 ,则
回代检验的结果与前三个是一样的,第四号DNA被错判,正确率95%。(未明确)
这种做法与欧氏距离模型的做法是等价的。
由线性代数的知识可知,两个向量定义内积(点积)之后可导出两个向量的距离:
。
于是
当都是单位向量时
于是, 从而有。
由此可以看到的距离越大,它们的相关性越小。
二、按碱基的字符串分类
碱基出现的频率不能体现碱基排列次序的信息,如在英文中eat 和tea。尽管各个字母出现的频率是一样的,但是表达的信息是不同的。从而应考虑碱基排列次序所表示的信息建立分类模型。
假定:① 碱基的排列情况,反映了该序列的内容
② 同类的DNA应有相互类似的碱基排列
定义相关运算 ,其中 取值于和。称为哑元,并规定对于任何都有。其运算率见表
a c g t o a 1 0 0 0 0 c 0 1 0 0 0 g 0 0 1 0 0 t 0 0 0 1 0 o 0 0 0 0 0
对于一个长度为的DNA序列将它扩充为一个无穷序列
,
其中。对于两个长度分别为的序列定义它们的相关序列为,。(序列卷积)
如下表: a a t
…. o …. …. o …. …. …. o o o …. …. ….
原创力文档


文档评论(0)