3种上数据分析方法.pptVIP

下载本文档

234
0
约1.11万字
约 86页
2018-03-07 发布于河南
举报
版权申诉

3种上数据分析方法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

3种上数据分析方法

种上数据分析方法Data Analysis at above Species Level 黄原 2006-10 主要内容 1 种上数据分析概述 2 序列比对 3 数据探索分析 4 距离矩阵法 5 简约法 6 最大似然法 7 贝叶斯法 8 系统发育网络法 9 系统树的可靠性 10 系统树的解释 1 种上数据分析概述单一数据集分析策略多源数据集分析策略基因组数据分析策略系统发育分析方法四大类 : 距离法Distance methods 简约法Parsimony methods 最大似然法Maximum likelihood methods 贝叶斯法Bayesian methods 系统发育分析软件 2 序列比对 sequence alignment 3 数据探索分析Data exploration 数据探索分析内容数据探索的方法已经成为系统发育推论的重要环节之一。Grant和Kluge （2003）对数据搜索作了系统的综述，他们把数据探索的方法归结为两大类，分别是灵敏度分析（sensitivity analyses）和质量分析(quality analysis)。数据质量分析质量分析旨在数据中区分出好的、可靠的信号，进而评估数据揭示真实系统发育的能力数据质量问题数据集质量的评价方法：数据集的质量可以从以下4个方面进行评价：（1）在进行系统发育分析之前，首先应该检查数据集的分子进化特性，包括计算序列间的成对p值、所有序列的平均p值、TS、TV，替换饱和程度分析，碱基组成偏向性分析等。（2）检查数据集对特定系统树的支持特征，包括数据集的分辨力、同型水平测度、分支支持度等的计算。（3）与已知系统发育结论进行比较，如与基于形态学性状的系统树、或与其他否则数据集的结果、或与模拟数据集的结果进行比较。（4）各种不同来源的数据集获得的结果的一致性。大多数数据集含有误导系统发育关系的信号，主要包括（1）替换饱和位点（2）人为比对位点（3）碱基组成偏好性（4）分支长度或替换速率差异引起的长枝吸引现象。数据质量分析方法系统发育信号（phylogenetic signal）检验常用的有3种：树长分布偏斜性分析（统计值为g1）、PTP（permutation tail probability）检验和RASA（relative apparent synapomorphy analysis）碱基组成偏向性分析 Skewness of Tree Length Distributions Skewness - example Permutation Tail Probability (PTP) 碱基组成偏向性分析数据组的碱基组成偏向性（base composition bias）进行检验数据灵敏度分析灵敏度分析揭示在变化的或错误的参数和假设下结果的反应，一般指提供一种评估系统发育支持的度量方法，哪些结论是不可靠的，哪些是稳定的，可信的，主要有：Relative rate comparison(saturation analysis) （碱基替换饱和性分析）、Character compatibility（性状兼容性检验）、Spectral analysis、Relative apparent synapomorphy analysis(RASA)、data partition methods(taxonomic congruence,分类学相合性) 、Topological incongruence test（拓扑不相合检验）、Global congruence、χ2test、Mickevich-Farris incongruence index、Miyamoto incongruence index、ILD test（不相合性长度差异检验）、Partitioned Bremer support（PBS）、Congruence with an empirically “known” phylogeny。数据集相合性检验 ILD（Incongruence Length Difference test）检验是对不同来源或不同性质的数据集在联合分析前进行数据同质性检验的一种方法，它是建立在“同型性状增加时系统树的准确性下降”假设基础上的。其原理是：如果数据集之间是同质性的，则在这些数据集之间随机地分配性状后形成的最优树与各自原数据集的最优树无显著差异。Swofford在PAUP*早期版本中提出可联合性检（Combinability test），后期版本改称划分数据集同质性检验(Partitioned Homogeneity Test ，PHT)。ILD 检验是在简约信号位点组成的数据集上