基因组序列的特征提取和进化树构建方法研究-计算机科学与技术专业论文.docxVIP

基因组序列的特征提取和进化树构建方法研究-计算机科学与技术专业论文.docx

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因组序列的特征提取和进化树构建方法研究-计算机科学与技术专业论文

基因组序列的特征提取和进化树构建方法研究摘要 基因组序列的特征提取和进化树构建方法研究 摘要 随着人类基因组计划(HGP)的完成,基因组序列迅猛的增长,吸引了越来越 多的研究人员对全基因组的系统发生树的注意。目前越来越多的研究倾向于使用 全基因组进行系统发育分析,因为这考虑了所有的生物特征并可作为所有生物的 共同指标。从生物的基因组角度研究物种间的进化关系,才能获得更加全面的关 于进化的信息。科学界普遍认为全基因组进化树与物种进化树更接近。而研究人 员发现对不同基因构建的进化树往往不一致,因为对全基因组作系统发育分析时, 物种的进化方式除了直向遗传外,还存在其它进化方式。因此,对基因组序列进 行系统发育分析有非常重要的意义。 本文主要研究了基因组序列的统计关联特征,基于统计关联特征的基因组序 列的相似性分析,并采用一种新的模糊聚类方法对基因组序列构建进化树。 首先,本文利用三联体和单联核苷酸的联合概率分布的差异来表示序列之间 的差异,提出了一种新的基于统计关联特征(TBC)方法对全基因组序列进行相似 性分析。将TBC特征矩阵数据归一化,再利用指数切比雪夫距离法构造模糊相似 矩阵,最后用模糊聚类中的传递闭包法来构建进化树。该方法不需要多序列比对, 计算简单。通过对四组基因组序列(48个HEV病毒、24种冠状病毒、24种转铁 蛋白和20种哺乳动物)进行系统发育分析,实验结果验证了该统计特征的有效性。 其次,本文提出了一种新的模糊聚类方法用于全基因组序列的进化树构建。 利用上述的TBC统计关联特征构造特征矩阵,运用分裂层次聚类方法构建进化 树,在分裂过程中采用模糊K均值算法将数据对象分为两类,分裂过程反复进行, 直到类中的对象数目为l为止。通过对四组基因组序列(20种哺乳动物、24种冠 状病毒、24种转铁蛋白和48个HEV病毒)进行系统发育分析,实验结果验证了 该模糊聚类方法的有效性。 关键词:基因组;系统发育分析;关联特征;进化树;模糊聚类 II AbstractWith Abstract With the completion of Human Genome Proj ect(HGP),the genome sequences IS rapid increasing and more and more researchers pay attention to the phylogenetic tree of complete genomes.At present more and more research is focused on whole genome sequences for phylogenetic analysis,because it considers all biological features and can be considered as the common goal of all creatures.Researching phylogenetic relation from the angle of creatures’genome can obtain more comprehensive inf.0rmation about evolution.A common attitude in science is that phylogenetic tree based on complete genome is more closed than that based on species phylogenetic tree· However.researchers find that phylogenetic trees on different genes is not accord with others.Because when making a phylogenetic analysis on complete genomes,the species evolution mode contains other evolution mode except vertical genetics· Consequently,the phylogenetic analysis based on genome sequences 1s VerY significant. In this paper,a statistic correlation feature is proposed and makes a similarity analysis based on this statistic correlation feature for genome sequences,and constr

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档