大规模单核苷酸多态性位点验证集群解决方案.docVIP

下载本文档

5
0
约8.79千字
约 17页
2018-09-01 发布于福建
举报
版权申诉

大规模单核苷酸多态性位点验证集群解决方案.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大规模单核苷酸多态性位点验证集群解决方案

大规模单核苷酸多态性位点验证集群解决方案　　摘要：随着高通量的单核苷酸多态性（Single Nucleotide Polymorphism, SNP）检测技术的发展，世界各地的实验研究积累了大量的SNP数据，但是目前尚无一个全面综合的SNP数据库。SNP在致病基因发现、司法鉴定、个体化医疗等方面的应用得到了极大的关注和发展，因此有必要建立一个整合的人类SNP数据库。在整合中需要进行大规模的单核苷酸多态性位点的验证，该工作通过一个自主开发的、健壮的、用户友好的生物信息学集群计算工具包EasyCluster在集群系统上得以高效完成。　　关键词：单核苷酸多态性；集群计算； OSCAR； PBS 　　中图法分类号：TP301文献标识码：A 　　文章编号：1001－3695(2007)01－0034－03 　　　　1绪论?? 　　　　随着高通量的检测SNP(Single Nucleotide Polymorphism)技术的发展，SNP图谱的绘制工作在逐渐被完成。世界各地的实验研究积累了大量的SNP数据，很多国家及其研究机构均建立了自己的SNP数据库，包括由美国国立卫生研究院（National Institutes of Health, NIH）提供的主要是与癌症和肿瘤相关的候选SNP数据库、由NIH开辟的适于生物医学研究的dbSNP多态数据库、由人类基因组组织机构（Human Genome Organization, HUGO）维护的突变数据库、由美国白头研究所（Whitehead Institute for Biomedical Research Genome Institute）建立的人类SNP数据库、由华盛顿大学（Washington University）资助的按染色体位置组织的SNP数据库、由瑞典卡尔林斯卡研究院(Karolinska Institute of Sweden)建立的HGBase数据库、由国际医药与信息加工公司联合组成的SNP 研究联盟（The SNP Consortium, TSC）建立的SNP 数据库、由美国国立环境健康科学研究院(National Institute of Environmental Health Scien￣ce)资助的犹他州大学SNP数据库与日本卫生部提供的JSNP数据库等[1~3]。?? 　　到目前为止，世界上已经发现了约一千万个人类SNP。但很多SNP数据库或者是针对某一人群，或者是针对特定疾病，没有一个全面的、综合的SNP数据库。为了更加广泛和深入地进行SNP的研究，有必要建立一个综合全面的人类SNP数据库。?? 　　我们初步计划整合NCBI的dbSNP，日本的JSNP，SNP联盟的TSCSNP等SNP数据库，建立自己的新的数据库，该数据库将为未来的研究提供信息：①它将为我们提供SNP的基本信息，如SNP的位置、分布、频率等；②它还将为我们提供其他高级的信息查询，如SNP及其所在的基因的功能、SNP与相关疾病的关系等；③它能帮助我们进行数据的分析，如预测提交的序列中的SNP位点，多个SNP的关系及联合作用的分析等。?? 　　建立SNP数据库不仅能推动和辅助SNP的研究，其本身也是对SNP数据的整理、筛选和研究。我们通过序列比对等方法对SNP数据进行重新评估，并将不同数据库中的数据整合起来。在这项工作中，面向如此大量数据的重新评估和验证对于计算能力提出了更高的需求。为此，我们使用了生物信息学研究领域中工业界及学术界公认的、最为流行的、低造价、高性能的Linux集群计算系统，今天，任何一个生物信息学实验室都可以很容易地搭建一个Linux集群计算平台。Linux集群系统主要使用开放集群小组（Open Cluster Group）所开发的OSCAR集群软件包。但是，该集群软件包主要是面向系统的系列工具集合，缺乏一套面向用户的集群工具，使得许多生物学家感觉到难以使用集群系统。虽然已有人在集群易用性方面做过一些有益的尝试，如SSWrapper[4] 和WRAPID[5]工具包，但是它们都不是基于OSCAR系统的，而且缺少一些特性，如任务依赖性等。因此，迫切需要开发一套基于OSCAR系统并能够非常容易移植到其他集群系统上去的相对健全的、用户友好的、轻量级的工具包。?? 　　便携批量处理系统（Portable Batch System, PBS）[6]是随OSCAR集群软件包发布的重要组件，主要用于任务分配。它依赖于一种特殊的、被称之为PBS脚本（PBS Script）的文件来对用户提交的任务进行描述。一种通常使用的方法是将大输入文件分割成多个小文件，然后为每一个小的输入文件建立PBS脚本，并作为任务提交给PBS分发到各个节点进行分布式计算。但是，在这个过程中