- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
快速准确的核酸测序序列比对工具.pdf
FANSe
快速准确的核酸测序序列比对工具
版本7.2 说明书
1.介绍
什么是FANSe ?
FANSe 是一种将大规模测序技术所产生的数以百万计的短读序列(reads, 即
短核苷酸序列)向参考基因组序列上进行比对的算法。FANSe 能在保持合理运
行速度的前提下达到非常高的准确度。
FANSe 的优势
准确性
FANSe 能达到一个稳定且非常高的灵敏度。在测序错误率为每核苷酸0.5%
-6 ,特别是在比对RNA 测序序列的时候。
的情况下,FANSe 的误判率可低达10
在我们所有的测试案例中,FANSe 能比其它短序列比对算法比对上更多的短读
序列。与此同时,FANSe 仍能保持很高的正确性(将短读序列比对到其来源的
位点上),其正确性与Bowtie 处于同一水平或略高。
对插入缺失位点的敏感
因为使用了不依赖硬件的加速Smith-Waterman 算法(不像SHRiMP 那样必
须要求SSE2 指令集),FANSe 能对碱基的插入和缺失提供完美的检测。
速度
FANSe 能使用一个CPU 核心在几分钟内向大肠杆菌的参考基因组比对1000
万个短读序列,或者用一台四核计算机在大约一天时间内将1000 万个短读序列
向人类参考基因组进行比对。
对短读序列的错配宽容度
FANSe 对错配碱基的容限的设置是非常灵活的:你可以设置任意数值的容
许错配碱基数,而不像SOAP2 、Bowtie 那样只能最多允许2~3 个错配。设置较
高的错配容限可以最大限度地提高比对的灵敏度,而不会降低其比对的准确性—
—短读序列仍会被匹配到最优位点上。
极强的适应性
FANSe 对输入的测序读长和参考基因组没有任何限制。它支持在参考序列中存
在被遮罩的(masked)和未被测定核苷酸(标识为N)。现在,FANSe 也支持单向比
对。
2.使用FANSe 的要求
操作系统
早期版本的FANSe 是用Microsoft Visual BASIC.NET 2010 来编程的。从7.0
版本开始,我们用ANSI-C 对其进行了重新编程,能在多种操作系统上对其进行
编译。我们推荐使用64 位的操作系统和64 位版本的FANSe 以获得更好的性能
(据测试大约能提高20-30% 的速度)。
从7.2 版开始,FANSe 编程时只考虑64 位操作系统。你仍然可以下载源代
码并将其编译成32 为可执行文件,不过我们不保证这样一定能运行。
如果你选择自行编译,请选用一种可靠的ANSI-C 编译器。我们强烈建议编
译时使用最高优化(-O3)和CPU 指令集优化选项以提高速度。
测序数据集
大规模测序数据必须是FASTQ 格式,且在核苷酸空间内。FANSe 暂不支持
SOLiD 的原始色彩空间。在处理色彩空间之前,SOLiD 格式的数据应先转换成
核苷酸空间的FASTQ 格式。
FANSe 支持短读序列中的未被测定的核苷酸(N) 。它们不会去匹配参考基因
组上任何核苷酸。但是,为了能达到更高的运行速度,我们建议您事先除去这些
“N ”。
为了达到更好的稳定性,建议每个序列的名称里面不要有@和空格。FANSe
并不利用测序质量字符串。如果测序质量字符串是以Sanger 格式或Illumina 1.8+
格式表示,其中可能含有@ ,在极个别的情况下可能干扰程序的读取而造成出错
(我们测试了上百个数据集才发现一个特例)。因此我们建议请先将数据集中的
测序质量字符串转换为Illumina 1.3+格式。
参考基因组
参考基因组序列必须以标准的FASTA 格式来提供。FANSe 全面支持多种格
式的被遮罩基因组(masked genome) :重复区域能用小写字母或者N/X来表示。
如果你的参考基因组包括多个染色体,我们强烈建议你一次只比对一个染色体,
因为这样能带来更快的速度和更高的稳定性。
3.使用教程
3.1 使用命令行
FANSe -R[参考基因组] -D[测序数据] -O[输出文件] -L[最大读长] -E[错
误容限] -I[插入缺失位点开关]
文档评论(0)