structure23-中文..docVIP

下载本文档

46
0
约 45页
2017-01-27 发布于重庆
举报
版权申诉

structure23-中文..doc

1、本文档共45页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

structure23-中文.

Structure 2.3使用手册 Jonathan K. Pritcharda Xiaoquan Wena Daniel Falushb 1 2 3 a芝加哥大学人类遗传学系 b牛津大学统计学系软件来自 /structure.html 2010年2月2日 1我们在Structure项目中的其他的同事有Peter Donnelly、Matthew Stephens和Melissa Hubisz。 2开发这个程序的第一版时作者（JP、MS、PD）在牛津大学统计系。 3关于Structure的讨论和问题请发给在线的论坛上：structure-software@。在邮递问题之前请查对这个文档并搜索以前的讨论。 1 引言程序Structure使用由不连锁的标记组成的基因型数据实施基于模型的聚类方法来推断群体结构。这种方法由普里查德（Pritchard）、斯蒂芬斯（Stephens）和唐纳利（Donnelly）（2000a）在一篇文章中引入，由Falush、斯蒂芬斯（Stephens）和普里查德（Pritchard）（2003a，2007）在续篇中进行了扩展。我们的方法的应用包括证明群体结构的存在，鉴定不同的遗传群体，把个体归到群体，以及鉴定移居者和掺和的个体。简言之，我们假定有K个群体（这里K可能是未知的）的一个模型，每个群体在每个位点上由一组等位基因频率来刻画。样本内的个体被（按照概率）分配到群体，或共同分配到两个或更多个群体，如果它们的基因型表明它们是混和的。假定在群体内，位点处于哈迪-温伯格平衡和连锁平衡。不精确地讲，个体被按达到这一点那样的方法指定到群体。我们的模型不假定一个特别的突变过程，并且它可以应用于大多数通常使用的遗传标记，包括微卫星（microsatellites）、SNP和RFLP。模型假定在亚群体内标记不处于连锁不平衡（LD），因此我们不能处理极其靠近的标记。从2.0版开始，我们现在能够处理弱连锁的标记。虽然这里实现的计算方法是相当强有力的，但是为了保证明智的答案，在运行程序的过程中还是需要谨慎。例如，不可能从理论上确定合适的运行长度（时间），这需要用户自己做一些实验。这份资料描述软件的使用和解释，并补充发表的文章，这些文章提供了对方法的更正式的描述和评价。 1.1 概述软件包Structure由几个部分组成。程序的计算部分用C语言编写。我们发布源码和用于各种平台（目前有苹果机，Windows，Linux，Sun）的可执行文件。C可执行文件读取用户提供的一个数据文件。还有一个Java前端为用户提供各种有帮助的工具，包括对输出的简单的处理。你也可以从命令行调用Structure而不是使用前端。这份资料包括关于怎样格式化数据文件、怎样选择合适的模型、以及怎样解释结果的信息。它也有关于使用两种界面（命令行和前端）的细节以及各种用户定义的参数的汇总。 1.2 在2.3版中有哪些更新？ 2.3版（2009年4月发布）引入了新的模型用于改进数据集结构的推论，其中（1）数据对于通常的结构模型来说信息不够，不足以提供准确的推论，但是（2）抽样的地点与群体归属关系（population membership）相关。在这种情形下，通过明确利用抽样地点信息，我们使结构得到改善，经常允许性能提高很多（Hubisz et al., 2009）。我们希望在下几个月释放更进一步的改进。表1：实例数据文件。这里MARKERNAMES = 1, LABEL = 1, POPDATA = 1, NUMINDS = 7, NUMLOCI = 5, MISSING = -9, POPFLAG = 0, LOCDATA = 0, PHENOTYPE = 0, EXTRACOLS = 0。第2列显示个体的地理取样位置。我们也可以把数据存储为每个个体一行（ONEROWPERIND = 1），“George 1 -9 -9 145 -9 66 64 0 0 92 94”。 Loc_a Loc_b Loc_c Loc_d Loc_e 乔治 1 -9 145 66 0 92 乔治 1 -9 -9 64 0 94 保拉 1 106 142 68 1 92 保拉 1 106 148 64 0 94 马修 2 110 145 -9 0 92 马修 2 110 148 66 1 -9 鲍勃 2 108 142 64 1 94 鲍勃 2 -9 142 -9 0 94 Anja 1 112 142 -9 1 -9 Anja 1 114 142 66 1 94 彼得 1 -9 145 66 0 -9 彼得 1 110 145 -9 1 -9 卡斯坦