用于单核苷酸多态性数据聚类分析方法比较.docVIP

下载本文档

24
0
约1.27万字
约 24页
2018-09-15 发布于福建
举报
版权申诉

用于单核苷酸多态性数据聚类分析方法比较.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

用于单核苷酸多态性数据聚类分析方法比较

用于单核苷酸多态性数据聚类分析方法比较　　[摘要] 对于目前用于单核苷酸多态性（SNPs）数据进行聚类分析的统计方法进行了比较说明，并在其中遴选出了5种具有代表性的统计方法，分别对每种方法具体进行分析。在每种聚类方法的论述过程中，均分为该方法的原理、计算方法和公式、优点与缺陷几个部分。并且在讨论部分对各种方法进行了总结归纳，提出了今后针对SNPs数据聚类计算方法的发展方向预测。　　[关键词] 单核苷酸多态性；聚类分析；基因；数据挖掘　　[中图分类号] R181.2+3 [文献标识码] A [文章编号] 1673-7210（2015）09（a）-0036-06 　　[Abstract] Statistical methods currently used for single nucleotide polymorphisms （SNPs） data cluster analysis are explained， and select five kinds of representative statistical methods， make specific analysis to each method separately. In the discussion process for each method， all divided into 5 parts： principle of the method， calculation methods， formulas， advantages and defects. In the discussion section of the article， all the methods are summarized， and propose future development direction of the cluster method for SNPs data. 　　[Key words] Single nucleotide polymorphisms； Cluster analysis； Gene； Data mining 　　在人类的基因组中存在各种形式的变异，其中，单核苷酸多态性（single-nucleotide polymorphisms，SNPs），即单个的核苷酸变异所引发的DNA链序列的多态性，是这些变异中最普遍的形式。根据数据统计，在人类含有不低于30亿个含氮碱基对数量的基因组中，SNP出现的概率在1/1000左右[1]。如何利用这些信息，建立数字模型，探索这些基因与位点和疾病的关联，成为了摆在科学家面前的一个富有挑战意义的课题[2]。　　科学家们在长期的研究中，根据“物以类聚”的原始思想，衍生出了对复杂数据或者试验对象等进行归类的一种多元统计学分析方法，即现在归属于统计学分支的聚类分析（cluster analysis），又称其群分析。这种统计方法的核心思想从诞生之日起就未更改，即在没有任何可用来参考的或者依从的规范下（即先验知识准备程度为零），按照被研究对象或者样品本身的特点或者性状，进行最大程度合理的分类。通过聚类分析的计算过程，不仅可以保证在最终所分的类别情况下，同一类别中的对象或者样品，能够具有最大程度的相似性，而且使不同类别中的对象或者样品，拥有最大程度的相异性。以大量相似为基础，对收集数据来分类，成为了聚类分析计算本身的最终目标[3]。从统计学的观点看，聚类分析计算是通过数据建模简化原有数据复杂程度的一种方法，而从实际应用的角度看，聚类分析计算亦是数据挖掘的主要任务之一。高维度高通量SNPs数据聚类分析，是近现代聚类分析中一个非常活跃的领域，同时也是一个非常具有挑战性的工作。　　目前用于高维度SNPs数据聚类分析的方法有很多种，常用的几大类有Logistic回归、潜在类别分析（latent class analysis，LCA）模型、结构方程模型分析（structural equation modeling，SEM）、以决策树为基础的分类回归树（classification and regression trees，CART）和随机森林（random forest，RF）算法的分析[4]、基于贝叶斯网络（Bayesian networks，BNs）模型的分析、基于神经网络（neural networks，NNs）模型的分析和支持向量机（support vector machine，SVM）的方法等，上述种类的方法各有其适用性，在聚类计算的效能方面也广泛存在争议。本文从以上几类方法中，遴选出应用较广泛、理论相对成熟的潜在类别分析、分类回归树模型、贝叶斯网络潜变量模型、BP神经网络模型和支持向量机5种具体方法进行比较，