DNA序列的分类问题.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DNA序列的分类问题

DNA序列的分类问题 摘要 本文给出了关于对DNA序列集合如何进行分类问题的解决方案。主要使用了Matlab软件对问题进行建模及运算,运用了聚类分析及判别分析的方法对数据进行处理。在对原始数据的处理和转换方面,使用了C#编写了相关代码,程序完成的主要任务是提取A、T、C、G在各个DNA序列集合中分别出现的频率,然后将这四个频率值作为每个DNA序列集合的特征向量,在Matlab中对其进行聚类分析,并利用分类结果,对未分类的DNA序列集合进行分类预测。 1.引言 随着人类社会信息和知识总量的不断膨胀,如何有效地管理和利用这些信息成为人们越来越关注的问题。快速增长的海量数据,它们存放在大型和大量的数据存储库中。如果没有强有力的工具,那么这些收集在大型数据存储库中的数据就会变成“数据坟墓”,从而出现数据丰富、信息贫乏的现象,而这些数据也难以被有效地利用并为人们的决策提供强有力的支持。数据挖掘技术正是在这种扩大的数据和贫乏的信息之间架起的一座桥梁,它的主要工作就是利用数据挖掘工具进行数据分析,发现重要的数据模式,对商务策略、知识库、科学和医学研究做出巨大贡献。[1] 聚类分析是数据挖掘领域里经常使用的基本方法之一,它是将数据对象分成类或簇的过程,使得同一个簇的对象之间具有很高的相似度,而不同簇中的对象高度相异。相异度根据描述对象的属性值评估,通常使用距离变量。[2] 在本文中,主要使用聚类分析对DNA序列进行分类。 1需要解决的问题 2000年6月,人类基因组计划中DNA全序列草图完成,2002年完成精确地全序列图。而DNA序列是由A、T、C、G四个字符按一定顺序排成的长约30亿的序列。但人们除了知道这四个字符表示四种碱基之外,对DNA序列所包含的其他信息却几乎一无所知。因此,充分发掘DNA序列的结构对于理解DNA全序列有着十分重要的意义。 该项目现有20个已知类别的人工制造DNA序列,其中序列标号1—10 为A类,11-20为B类。现在需要从中提取特征,构造分类方法,可以利用这些已知类别的序列,衡量所使用的分类方法是否足够好。然后用该方法,对另外20个未标明类别的人工序列进行分类预测。 2数据集 本项目所采用的数据集来自于2000年网易杯全国大学生数学建模竞赛题目,题目中给出了20个已知类别的人工制造DNA序列,前10个为A类,后10个为B类。并且给出了20个未知分类的人工序列进行分类预测。数据文件见附录art-model-data.txt 3 对数据的预处理 由于原始数据均为一连串的A、T、C、G的字符组合,要对其进行数据挖掘,就需要对原始数据进行预处理,即查看其中是否存在异常值、错误值和空缺等情况,并对上述情况进行相应的处理。 1.4数字特征的提取 通过编写C++程序,来得到每一条DNA中所包含的A、T、C、G的碱基数量以及该DNA总的碱基数,从而得到每条DNA中A、T、C、G在序列中出现的频率及序列总长度,分别记为。 程序代码如下: 将40条DNA序列应用该程序进行处理,最终得到如下结果: 序号 A T C G 总数 1 33 15 19 44 111 2 30 17 18 46 111 3 30 7 24 50 111 4 47 32 12 20 111 5 26 12 26 47 111 6 39 14 14 44 111 7 39 21 11 40 111 8 31 21 18 41 111 9 23 17 23 48 111 10 20 15 30 45 111 11 39 55 5 11 110 12 36 55 3 16 110 13 28 57 11 14 110 14 33 55 9 13 110 15 32 71 0 7 110 16 40 51 9 10 110 17 39 29 27 15 110 18 32 55 13 10 110 19 24 62 16 8 110 20 22 62 19 7 110 21 31 41 22 19 113 22 30 23 25 26 105 23 18 19 26 39 102 24 22 47 22 22 115 25 26 23 24 32 105 26 25 44 24 21 114 27 24 24 21 35 104 28 30 52 17 18 117 29 15 19 22 45 101 30 31 27 26 23 107 31 27 40 20 25 112 32 19 36 25 29 110 33 30 37 21 23 111 34 24 17 24 37 102 35 35 21 22 35 103 36 24 22 32 27 105 37 22 21

文档评论(0)

f8r9t5c + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8000054077000003

1亿VIP精品文档

相关文档