快速准确的核酸测序序列比对工具.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
快速准确的核酸测序序列比对工具.pdf

FANSe 快速准确的核酸测序序列比对工具 版本7.2 说明书 1.介绍 什么是FANSe ? FANSe 是一种将大规模测序技术所产生的数以百万计的短读序列(reads, 即 短核苷酸序列)向参考基因组序列上进行比对的算法。FANSe 能在保持合理运 行速度的前提下达到非常高的准确度。 FANSe 的优势 准确性 FANSe 能达到一个稳定且非常高的灵敏度。在测序错误率为每核苷酸0.5% -6 ,特别是在比对RNA 测序序列的时候。 的情况下,FANSe 的误判率可低达10 在我们所有的测试案例中,FANSe 能比其它短序列比对算法比对上更多的短读 序列。与此同时,FANSe 仍能保持很高的正确性(将短读序列比对到其来源的 位点上),其正确性与Bowtie 处于同一水平或略高。 对插入缺失位点的敏感 因为使用了不依赖硬件的加速Smith-Waterman 算法(不像SHRiMP 那样必 须要求SSE2 指令集),FANSe 能对碱基的插入和缺失提供完美的检测。 速度 FANSe 能使用一个CPU 核心在几分钟内向大肠杆菌的参考基因组比对1000 万个短读序列,或者用一台四核计算机在大约一天时间内将1000 万个短读序列 向人类参考基因组进行比对。 对短读序列的错配宽容度 FANSe 对错配碱基的容限的设置是非常灵活的:你可以设置任意数值的容 许错配碱基数,而不像SOAP2 、Bowtie 那样只能最多允许2~3 个错配。设置较 高的错配容限可以最大限度地提高比对的灵敏度,而不会降低其比对的准确性— —短读序列仍会被匹配到最优位点上。 极强的适应性 FANSe 对输入的测序读长和参考基因组没有任何限制。它支持在参考序列中存 在被遮罩的(masked)和未被测定核苷酸(标识为N)。现在,FANSe 也支持单向比 对。 2.使用FANSe 的要求 操作系统 早期版本的FANSe 是用Microsoft Visual BASIC.NET 2010 来编程的。从7.0 版本开始,我们用ANSI-C 对其进行了重新编程,能在多种操作系统上对其进行 编译。我们推荐使用64 位的操作系统和64 位版本的FANSe 以获得更好的性能 (据测试大约能提高20-30% 的速度)。 从7.2 版开始,FANSe 编程时只考虑64 位操作系统。你仍然可以下载源代 码并将其编译成32 为可执行文件,不过我们不保证这样一定能运行。 如果你选择自行编译,请选用一种可靠的ANSI-C 编译器。我们强烈建议编 译时使用最高优化(-O3)和CPU 指令集优化选项以提高速度。 测序数据集 大规模测序数据必须是FASTQ 格式,且在核苷酸空间内。FANSe 暂不支持 SOLiD 的原始色彩空间。在处理色彩空间之前,SOLiD 格式的数据应先转换成 核苷酸空间的FASTQ 格式。 FANSe 支持短读序列中的未被测定的核苷酸(N) 。它们不会去匹配参考基因 组上任何核苷酸。但是,为了能达到更高的运行速度,我们建议您事先除去这些 “N ”。 为了达到更好的稳定性,建议每个序列的名称里面不要有@和空格。FANSe 并不利用测序质量字符串。如果测序质量字符串是以Sanger 格式或Illumina 1.8+ 格式表示,其中可能含有@ ,在极个别的情况下可能干扰程序的读取而造成出错 (我们测试了上百个数据集才发现一个特例)。因此我们建议请先将数据集中的 测序质量字符串转换为Illumina 1.3+格式。 参考基因组 参考基因组序列必须以标准的FASTA 格式来提供。FANSe 全面支持多种格 式的被遮罩基因组(masked genome) :重复区域能用小写字母或者N/X来表示。 如果你的参考基因组包括多个染色体,我们强烈建议你一次只比对一个染色体, 因为这样能带来更快的速度和更高的稳定性。 3.使用教程 3.1 使用命令行 FANSe -R[参考基因组] -D[测序数据] -O[输出文件] -L[最大读长] -E[错 误容限] -I[插入缺失位点开关]

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档