velvet序列的组装讲述.docx

下载文档 降价啦

17
0
约1.05万字
约 9页
2017-05-04 发布于湖北
举报
版权申诉
保障服务

velvet序列的组装讲述.docx

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

velvet序列的组装讲述

每日一生信--velvet序列的组装（终结版） ? (2014-03-02 10:48:06) Velvet用于拼接短序列组装安装? 1，下载地址：http://www.ebi.ac.uk/~zerbino/velvet/ 2，首先需要安装连个关联软件包zlib1g-dev?和pdflatex ????????sudo apt-get install?zlib1g-dev?（我的系统自带这个了） ????????sudo apt-get install texlive??????（这个得下） 3，解压下载的velvet软件包，tar xvzf??velvet_version.tgz ????????cd velvet_version ?make color?CATEGORIES=2?MAXKMERLENGTH=127?BIGASSEMBLY=1LONGSEQUENCES=1?OPENMP=1 ?（参数怎么修改见下面） make clean 就是删除，然后再重新安装其他一些设置： make color??设置不同的颜色？？？ make MAXKMERLENGTH=127??#默认的最大kmer为31，这个需要修改 make CATEGORIES=57???#处理的数据的管道数，不同的管道可以用来处理来自不同插入文库或者不同样品（这里面有一个问题：宏基因组算是多个样品吗？），而这个值越大，对内存消耗越大，而我的样品，默认的为2，我怕内存不够，暂且设为2吧 ?????make BIGASSEMBLY=1????#read的ID保存在一个32字节的字符串中，如果你有大于22亿（2.2G）?的reads，你就需要更多的内存，设置为1，是调用更多的内存。 ?????make LONGSEQUENCES=1??#read的长度保存于16字节的字符串中，如果长度大于32kb,就意味着要更多的字节来存放字长度，所以可以直接设置为1，调用更多的内存，但是跟上面一样也会消耗很多的内存。 ???make OPENMP=1??#可以利用多个cpu，但是速度不会有指数的变化，因为只有一部分可以利用多线程 ????make ‘BUNDLEDZLIB=1’??#如果不能使用系统默认的zlib，也可以造常运行。也可以直接这样，一致性到位：????make color?CATEGORIES=57?MAXKMERLENGTH=127?BIGASSEMBLY=1LONGSEQUENCES=1?OPENMP=1 ????? 环境变量： export PATH=$PATH:/sam/velvet/bin #注意我把安装好后的velveth,velvetg两个程序罗到了新建文件夹/bin里面，这样调用这两个程序的时候，就直接可以在终端的任何地方输入velveth,而不用cd 到程序目录，然后./velveth罗。也可以这样来改环境变量： sudo cp velvetg /usr/bin/ sudo cp velveth /usr/bin/ 运行环境： 64bit，gcc（GNU Compiler Collection，GNU编译器套装，是自由的类Unix及苹果计算机Mac OS X?操作系统的标准编译器），12G内存 ? 主要工作原理图： 1、Bruijn算法给定的数据总是存在着冗余信息，因此，算法的使用很重要。当前大多数是用的overlap-consensus-layout算法，它的每一个read都是单独的实体。而Bruijn算法，将分析基于observed words（或者k-mers）。给定k-mers，不管发现多少次，都是唯一的node。此外，他可以无差别的容纳long和short read的混合物。构建Bruijn图关键在于对所有的reads进行hash。Hash值通过设置参数给定，或者是默认的21。这对所有的序列进行成对比对时会减少时间，一旦所有的reads已经被hash，由k-mer node可以追溯他们的每一个路径。增值覆盖率和创建arcs就属于这种方法。 ? 2、错误的移除错误移除算法：Tour Bus，对没有错误连接的graph进行移除。这要确保基因组中低覆盖率的唯一的点没有被破坏。因此，这一步在画图之后进行。这里有两种类型的错误：tips和bubbles。Tips：起源于低质量的read的结尾部分没有任何的重叠。Bubbles：他产生于长read的中间或两个错误的read结尾部分重叠。首先去除tips，由长度和覆盖率来定义。然后去除bubbles，运用的是和Dijkstra’s算法相似的算法，最后低覆盖率的点会被淘汰。 ? 使用：合并两个fastq文件，如果是fasta,则需将下面的代码中fastq改为fasta /sam/v