快速准确的核酸测序序列比对工具.pdfVIP

下载本文档

67
0
约6.04千字
约 6页
2016-02-09 发布于天津
举报
版权申诉

快速准确的核酸测序序列比对工具.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

快速准确的核酸测序序列比对工具.pdf

FANSe 快速准确的核酸测序序列比对工具版本7.2 说明书 1.介绍什么是FANSe ？ FANSe 是一种将大规模测序技术所产生的数以百万计的短读序列（reads, 即短核苷酸序列）向参考基因组序列上进行比对的算法。FANSe 能在保持合理运行速度的前提下达到非常高的准确度。 FANSe 的优势准确性 FANSe 能达到一个稳定且非常高的灵敏度。在测序错误率为每核苷酸0.5% -6 ，特别是在比对RNA 测序序列的时候。的情况下，FANSe 的误判率可低达10 在我们所有的测试案例中，FANSe 能比其它短序列比对算法比对上更多的短读序列。与此同时，FANSe 仍能保持很高的正确性（将短读序列比对到其来源的位点上），其正确性与Bowtie 处于同一水平或略高。对插入缺失位点的敏感因为使用了不依赖硬件的加速Smith-Waterman 算法（不像SHRiMP 那样必须要求SSE2 指令集），FANSe 能对碱基的插入和缺失提供完美的检测。速度 FANSe 能使用一个CPU 核心在几分钟内向大肠杆菌的参考基因组比对1000 万个短读序列，或者用一台四核计算机在大约一天时间内将1000 万个短读序列向人类参考基因组进行比对。对短读序列的错配宽容度 FANSe 对错配碱基的容限的设置是非常灵活的：你可以设置任意数值的容许错配碱基数，而不像SOAP2 、Bowtie 那样只能最多允许2~3 个错配。设置较高的错配容限可以最大限度地提高比对的灵敏度，而不会降低其比对的准确性— —短读序列仍会被匹配到最优位点上。极强的适应性 FANSe 对输入的测序读长和参考基因组没有任何限制。它支持在参考序列中存在被遮罩的(masked)和未被测定核苷酸(标识为N)。现在，FANSe 也支持单向比对。 2.使用FANSe 的要求操作系统早期版本的FANSe 是用Microsoft Visual BASIC.NET 2010 来编程的。从7.0 版本开始，我们用ANSI-C 对其进行了重新编程，能在多种操作系统上对其进行编译。我们推荐使用64 位的操作系统和64 位版本的FANSe 以获得更好的性能（据测试大约能提高20-30% 的速度）。从7.2 版开始，FANSe 编程时只考虑64 位操作系统。你仍然可以下载源代码并将其编译成32 为可执行文件，不过我们不保证这样一定能运行。如果你选择自行编译，请选用一种可靠的ANSI-C 编译器。我们强烈建议编译时使用最高优化(-O3)和CPU 指令集优化选项以提高速度。测序数据集大规模测序数据必须是FASTQ 格式，且在核苷酸空间内。FANSe 暂不支持 SOLiD 的原始色彩空间。在处理色彩空间之前，SOLiD 格式的数据应先转换成核苷酸空间的FASTQ 格式。 FANSe 支持短读序列中的未被测定的核苷酸(N) 。它们不会去匹配参考基因组上任何核苷酸。但是，为了能达到更高的运行速度，我们建议您事先除去这些 “N ”。为了达到更好的稳定性，建议每个序列的名称里面不要有@和空格。FANSe 并不利用测序质量字符串。如果测序质量字符串是以Sanger 格式或Illumina 1.8+ 格式表示，其中可能含有@ ，在极个别的情况下可能干扰程序的读取而造成出错（我们测试了上百个数据集才发现一个特例）。因此我们建议请先将数据集中的测序质量字符串转换为Illumina 1.3+格式。参考基因组参考基因组序列必须以标准的FASTA 格式来提供。FANSe 全面支持多种格式的被遮罩基因组(masked genome) ：重复区域能用小写字母或者N/X来表示。如果你的参考基因组包括多个染色体，我们强烈建议你一次只比对一个染色体，因为这样能带来更快的速度和更高的稳定性。 3.使用教程 3.1 使用命令行 FANSe -R[参考基因组] -D[测序数据] -O[输出文件] -L[最大读长] -E[错误容限] -I[插入缺失位点开关]