- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 31 卷第 1 期 数学的实践与认识 V o l31 N o 1
2001 年 1 月 M A TH EM A T ICS IN PRA CT ICE AND TH EO R Y Jan. 2001
D NA 序 列 的 分 类 模 型
汤诗杰, 周 亮, 王晓玲
指导老师: 孙广中
( 中国科技大学, 合肥 230026)
编者按: 本文提出了 序列分类的三种模型, 其一, 基于 、 、 、 四种碱基出现的频率; 其二利用了
DNA A G T C
同一碱基在序列中的间隔, 这一信息是单纯考虑频率所不能包含的; 在第三种模型中, 作者把 序列视
DNA
为一个信息流, 考虑每增加一个字符所带来的信息增量. 尽管文中信息量的定义方式仍可讨论, 但本文思想
新颖活跃, 有其独特之处. 本文最后的分类方法, 是以上三种的综合使用.
摘要: 本文针对DNA 序列分类这个实际问题, 提出了相应的数学模型. 为了很好的体现DNA 序列的局
部性和全局性的特征, 我们给出了衡量分类方法优劣的标准, 即在满足一定限制条件的情况下, 是否能充分
反映序列的各方面特性.
依据我们提出的判别标准, 单一标准的分类是无法满足要求的. 我们的方法是侧重点不同的三种方法
的综合集成. 这三种方法分别体现了序列中元素出现的概率, 序列中元素出现的周期性, 序列所带有的信息
含量. 利用这个方法, 完成了对未知类型的人工序列及 自然序列的分类工作. 最后, 对分类模型的优缺点进
行了分析, 并就模型的推广作了讨论.
1 问题的提出( 略)
2 问题的分析
这是一个比较典型的分类问题, 为了表述的严格和方便, 我们用数学的方法来重述这个
问题. 已知字母序列 , , …… , = … , 其中 ∈{ , , , }; 有字符序列
S 1 S 2 S 3 S 40 S i x 1x 2x 3 x n i x j a t c g
集合 , , 满足 ∩ = , 并当 1 10 时, ∈ ; 当 11 20 时, ∈ . 现要求考虑
A B A B i S i A i S i B
当21 i 40 时, S i 与集合A 及集合B 的关系.
在这里, 问题的关键就是要从已知的分好类的20 个字母序列中提取用于分类的特征.
知道了这些特征, 我们就可以比较容易的对那些未标明类型的序列进行分类. 下面我们将
首先对用于分类的标准问题进行必要的讨论.
3 分类的标准及评价
首先, 我们提取的特征应该满足以下两个条件:
( 1) 所取特征必须可以标志A 组和B 组. 也就是说, 我们利用这些特征应该可以很好
的区分已经标示分类的20 个序列. 这是比较显然的一个理由.
(2) 所取特征必须是有一定的实际意义的. 这一点是决不能被忽视的. 比如, 如果不考
虑模型的实际意义, 我们就可以以序列的开头字母为分类标准: 已知在B 类中的十个序列
都是以g t 开始的, 而已知在A 类中 10 个序列没有以g t 开始的, 甚至以g 开始的都没有.
显然这是满足上面的第一个条件的. 如果仅因此就认为这种特征是主要的, 并简单的利用
这个特征将所有待分类的序列分成两类, 显然是不甚合理的.
©
您可能关注的文档
- 造价师职业2011年求职应聘指南(笔试真题 面试经验).pdf
- 室内设计师职业2011年求职应聘指南(笔试真题 面试经验).pdf
- 律师职业2011年求职应聘指南(笔试真题 面试经验).pdf
- 电子工程师2011年求职应聘指南(笔试真题 面试经验).pdf
- 导游职业2011年求职应聘指南(笔试真题 面试经验).pdf
- 电力行业2011年求职应聘指南(笔试真题 面试经验).pdf
- 秘书职业2011年求职应聘指南(笔试真题 面试经验).pdf
- 记者职业2011年求职应聘指南(笔试真题 面试经验).pdf
- 旅游行业2011年求职应聘指南(笔试真题 面试经验).pdf
- 家居装饰行业2011年求职应聘指南(笔试真题 面试经验).pdf
- CUMCM优秀论文-DNA序列分类的数学模型【数学建模】.pdf
- CUMCM优秀论文-车灯线光源的优化设计【数学建模】.pdf
- CUMCM优秀论文-DNA序列中的结构与简化模型【数学建模】.pdf
- CUMCM优秀论文-DVD在线租赁【数学建模】.pdf
- CUMCM优秀论文-车灯线光源的优化设计模型【数学建模】.pdf
- CUMCM优秀论文-DVD在线租赁问题【数学建模】.pdf
- CUMCM优秀论文-车灯线光源的优化设计问题【数学建模】.pdf
- CUMCM优秀论文-持续高产捕鱼策略【数学建模】.pdf
- CUMCM优秀论文-蛋白质氨基酸的组合问题【数学建模】.pdf
- CUMCM优秀论文-刀具问题的仿真及灵敏度分析【数学建模】.pdf
文档评论(0)