- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
velvet序列的组装讲述
每日一生信--velvet序列的组装(终结版)
? (2014-03-02 10:48:06)
Velvet用于拼接短序列组装
安装?
1,下载地址:http://www.ebi.ac.uk/~zerbino/velvet/
2,首先需要安装连个关联软件包zlib1g-dev?和pdflatex
????????sudo apt-get install?zlib1g-dev?(我的系统自带这个了)
????????sudo apt-get install texlive??????(这个得下)
3,解压下载的velvet软件包,tar xvzf??velvet_version.tgz
????????cd velvet_version
?make color?CATEGORIES=2?MAXKMERLENGTH=127?BIGASSEMBLY=1LONGSEQUENCES=1?OPENMP=1
?(参数怎么修改见下面)
make clean 就是删除,然后再重新安装
其他一些设置:
make color??设置不同的颜色???
make MAXKMERLENGTH=127??#默认的最大kmer为31,这个需要修改
make CATEGORIES=57???#处理的数据的管道数,不同的管道可以用来处理来自不同插入文库或者不同样品(这里面有一个问题:宏基因组算是多个样品吗?),而这个值越大,对内存消耗越大,而我的样品,默认的为2,我怕内存不够,暂且设为2吧
?????make BIGASSEMBLY=1????#read的ID保存在一个32字节的字符串中,如果你有大于22亿(2.2G)?的reads,你就需要更多的内存,设置为1,是调用更多的内存。
?????make LONGSEQUENCES=1??#read的长度保存于16字节的字符串中,如果长度大于32kb,就意味着要更多的字节来存放字长度,所以可以直接设置为1,调用更多的内存,但是跟上面一样也会消耗很多的内存。
???make OPENMP=1??#可以利用多个cpu,但是速度不会有指数的变化,因为只有一部分可以利用多线程
????make ‘BUNDLEDZLIB=1’??#如果不能使用系统默认的zlib,也可以造常运行。
也可以直接这样,一致性到位:????make color?CATEGORIES=57?MAXKMERLENGTH=127?BIGASSEMBLY=1LONGSEQUENCES=1?OPENMP=1
?????
环境变量:
export PATH=$PATH:/sam/velvet/bin
#注意我把安装好后的velveth,velvetg两个程序罗到了新建文件夹/bin里面,这样调用这两个程序的时候,就直接可以在终端的任何地方输入velveth,而不用cd 到程序目录,然后./velveth罗。
也可以这样来改环境变量:
sudo cp velvetg /usr/bin/
sudo cp velveth /usr/bin/
运行环境:
64bit,gcc(GNU Compiler Collection,GNU编译器套装,是自由的类Unix及苹果计算机Mac OS X?操作系统的标准编译器),12G内存
?
主要工作原理图:
1、Bruijn算法
给定的数据总是存在着冗余信息,因此,算法的使用很重要。当前大多数是用的overlap-consensus-layout算法,它的每一个read都是单独的实体。而Bruijn算法,将分析基于observed words(或者k-mers)。给定k-mers,不管发现多少次,都是唯一的node。此外,他可以无差别的容纳long和short read的混合物。
构建Bruijn图关键在于对所有的reads进行hash。Hash值通过设置参数给定,或者是默认的21。这对所有的序列进行成对比对时会减少时间,一旦所有的reads已经被hash,由k-mer node可以追溯他们的每一个路径。增值覆盖率和创建arcs就属于这种方法。
?
2、错误的移除
错误移除算法:Tour Bus,对没有错误连接的graph进行移除。这要确保基因组中低覆盖率的唯一的点没有被破坏。因此,这一步在画图之后进行。
这里有两种类型的错误:tips和bubbles。Tips:起源于低质量的read的结尾部分没有任何的重叠。Bubbles:他产生于长read的中间或两个错误的read结尾部分重叠。
首先去除tips,由长度和覆盖率来定义。然后去除bubbles,运用的是和Dijkstra’s算法相似的算法,最后低覆盖率的点会被淘汰。
?
使用:
合并两个fastq文件,如果是fasta,则需将下面的代码中fastq改为fasta
/sam/v
文档评论(0)