高通量测序序列比对研究综述.docVIP

下载本文档

7
0
约4.76千字
约 7页
2016-09-07 发布于北京
举报
版权申诉

高通量测序序列比对研究综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

高通量测序序列比对研究综述.doc

高通量测序序列比对研究综述　　摘要：高通量测序技术的飞速发展，给生物信息学带来了新的机遇和挑战，第二代测序序列数量多、长度短使得原来的序列分析手段不再适用。近几年来，针对高通量测序的序列分析算法和软件日益增多，目前已有上百种，导致选择合适的软件成为一个难题。对第二代测序的测序类型、序列类型以及分析算法进行了总结和归纳，对现今常用的分析软件的序列的类型、长度以及软件应用算法、输入/输出格式、特点和功能等方面做了详细分析和比较并给出建议。分析了现今测序技术和序列分析存在的问题，预测了今后的发展方向。　　关键词：高通量测序：序列比对；序列作图；序列比对工具　　中图分类号：Q-31 　　文献标识码：A 　　文章编号：1007-7847（2014）05-0458-07 　　以Roche/454焦磷酸测序（2005年）、lllumina/Solexa聚合酶合成测序（2006年）和ABI/SOLiD连接酶测序（2007年）技术为代表的第二代测序技术与Sanger测序相比，共有的突出特征是单次运行产出序列数据量大，故而又被通称为高通量测序技术。高通量测序技术大大降低了测序的时问和成本，因而得到了广泛应用。但随之而来的短序列（short read）为基因数据分析带来了新挑战。目前对短序列一个常用的分析方法则是将已有基因组序列作为参考基因序列（reference），将短序列与参考基因序列进行序列比对，并在参考基因序列上进行定位，这个过程称为mapping。序列比对是基冈数据分析最基本的手段，对其进行研究具有重要意义。　　1 高通量测序概述　　1.1 测序分类　　大规模、低成本、快速的高通量测序技术被广泛应用于生物研究的各个方面，当前主流的测序分为：1）基因组学的全基因组de novo测序、全基因组重测序、外显子目标区域测序、简化基因组测序；2）转录组学的转录组测序、数字基因表达谱、小RNAs测序、降解组测序和长链非编码BNA洲序；3）表观基囚组学的全基因组Bisulfile甲基化测序、RRBS、MeDIP测序等。　　1.2 测序数据类型　　现在比较常见的测序方式有：single -read、paired-end、Mate-pair、color-space。1）Single-read即为单末端测序，在测序前先将DNA样本进行片段化处理形成200～500 hp的片段，且将引物序列连接到DNA片段的一端，然后末端加上接头。这种方法较简单，但是它只有一端有拼接信息，不利于拼装；2）Paired-end称为双末端测序或配对末端测序，它是指在构建待测DNA文库时，在基因片段的两端都加上测序引物结合位点再进行测序。双末端测序是在片段两端都加上接头，在序列拼装的时候更容易定位片段；3）Male-pair也属于双末端测序，与paired-end不同的是它将基因随机打成特定为2～10 kb的片段，然后经末端修复，生物素标记和环化等实验步骤后.再把环化后的片段打断成400～600 bp的片段并标记测序。因为经过了环化步骤，Mate-pair比paired-end方式测得的序列片段更长，从而可以将基因序列中大量的repeat包含在内，减少拼接难度；4）Color-space read是ABI公司的SOLiD测序仪检测出的read，SOLiD可以同时检测两个相邻的碱基，并利用颜色空间的4种不同的颜色对两个碱基编码。对于这种编码方式，只要知道颜色编码对应的序列上任何一个位置的碱基类型，就可以将颜色编码解码为原来的碱基序列，图l为颜色编码过程。　　2 序列比对方法　　对于百万条甚至上亿条短序列在reference上的定位，传统的动态规划算法不能满足我们的要求。为了加快序列比对的速度，应用启发式算法是必然趋势。同前，绝大多数的启发式算法都是通过建立索引加快比对速度。建立索引就是用一个辅助的数据结构存储待比对序列，这种数据结构能够将序列中符合一定规则的子序列凸显出来。常用的数据结构有哈希表和后缀树两种。　　2.1 基于种子的哈希表索引方法　　这种方法多用于数据库搜索或read在参考序列上的mapplng，以哈希表形式建立序列的索引，这类算法的代表软件是SSAHA，基于种子的哈希表方法具体步骤：　　第一步，建立哈希表。　　DNA序列由A、C、T、G四种脱氧核苷酸组成，长度为k的连续片段也就是“种子”有4K种可能将4K种子存放在哈希表中，我们用一个公式将所有种子唯一标识，将4个碱基的值f（x）转换为二进制数据表示，只占用2 Bit的内存。　　第二步，将数据库中的序列与哈希表关联　　设一个含有n条DNA序列的数据库D={S1，S2，…，Sn}，将数据库中的每条序列分解连续种子w，其长度k=5，从头开始每次偏移