velvet序列的组装讲述.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
velvet序列的组装讲述

每日一生信--velvet序列的组装(终结版) ? (2014-03-02 10:48:06) Velvet用于拼接短序列组装 安装? 1,下载地址:http://www.ebi.ac.uk/~zerbino/velvet/ 2,首先需要安装连个关联软件包zlib1g-dev?和pdflatex ????????sudo apt-get install?zlib1g-dev?(我的系统自带这个了) ????????sudo apt-get install texlive??????(这个得下) 3,解压下载的velvet软件包,tar xvzf??velvet_version.tgz ????????cd velvet_version ?make color?CATEGORIES=2?MAXKMERLENGTH=127?BIGASSEMBLY=1LONGSEQUENCES=1?OPENMP=1 ?(参数怎么修改见下面) make clean 就是删除,然后再重新安装 其他一些设置: make color??设置不同的颜色??? make MAXKMERLENGTH=127??#默认的最大kmer为31,这个需要修改 make CATEGORIES=57???#处理的数据的管道数,不同的管道可以用来处理来自不同插入文库或者不同样品(这里面有一个问题:宏基因组算是多个样品吗?),而这个值越大,对内存消耗越大,而我的样品,默认的为2,我怕内存不够,暂且设为2吧 ?????make BIGASSEMBLY=1????#read的ID保存在一个32字节的字符串中,如果你有大于22亿(2.2G)?的reads,你就需要更多的内存,设置为1,是调用更多的内存。 ?????make LONGSEQUENCES=1??#read的长度保存于16字节的字符串中,如果长度大于32kb,就意味着要更多的字节来存放字长度,所以可以直接设置为1,调用更多的内存,但是跟上面一样也会消耗很多的内存。 ???make OPENMP=1??#可以利用多个cpu,但是速度不会有指数的变化,因为只有一部分可以利用多线程 ????make ‘BUNDLEDZLIB=1’??#如果不能使用系统默认的zlib,也可以造常运行。 也可以直接这样,一致性到位:????make color?CATEGORIES=57?MAXKMERLENGTH=127?BIGASSEMBLY=1LONGSEQUENCES=1?OPENMP=1 ????? 环境变量: export PATH=$PATH:/sam/velvet/bin #注意我把安装好后的velveth,velvetg两个程序罗到了新建文件夹/bin里面,这样调用这两个程序的时候,就直接可以在终端的任何地方输入velveth,而不用cd 到程序目录,然后./velveth罗。 也可以这样来改环境变量: sudo cp velvetg /usr/bin/ sudo cp velveth /usr/bin/ 运行环境: 64bit,gcc(GNU Compiler Collection,GNU编译器套装,是自由的类Unix及苹果计算机Mac OS X?操作系统的标准编译器),12G内存 ? 主要工作原理图: 1、Bruijn算法 给定的数据总是存在着冗余信息,因此,算法的使用很重要。当前大多数是用的overlap-consensus-layout算法,它的每一个read都是单独的实体。而Bruijn算法,将分析基于observed words(或者k-mers)。给定k-mers,不管发现多少次,都是唯一的node。此外,他可以无差别的容纳long和short read的混合物。 构建Bruijn图关键在于对所有的reads进行hash。Hash值通过设置参数给定,或者是默认的21。这对所有的序列进行成对比对时会减少时间,一旦所有的reads已经被hash,由k-mer node可以追溯他们的每一个路径。增值覆盖率和创建arcs就属于这种方法。 ? 2、错误的移除 错误移除算法:Tour Bus,对没有错误连接的graph进行移除。这要确保基因组中低覆盖率的唯一的点没有被破坏。因此,这一步在画图之后进行。 这里有两种类型的错误:tips和bubbles。Tips:起源于低质量的read的结尾部分没有任何的重叠。Bubbles:他产生于长read的中间或两个错误的read结尾部分重叠。 首先去除tips,由长度和覆盖率来定义。然后去除bubbles,运用的是和Dijkstra’s算法相似的算法,最后低覆盖率的点会被淘汰。 ? 使用: 合并两个fastq文件,如果是fasta,则需将下面的代码中fastq改为fasta /sam/v

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档