基于高通量测序数据结构变异检测方法研究.docVIP

下载本文档

19
0
约4.75千字
约 10页
2018-06-23 发布于福建
举报
版权申诉

基于高通量测序数据结构变异检测方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于高通量测序数据结构变异检测方法研究

基于高通量测序数据结构变异检测方法研究　　摘要：随着高通量测序数据技术的发展，人类全基因组的测序成本在不断降低，测序速度也有了较为显著地提升。运用生物信息学的手段处理这些海量基因组数据的需求也越来越迫切，而对于基因组结构变异的检测更是这个领域的核心内容。由高通量测序数据特征入手，介绍了当前主流的生物信息学结构变异检测方法，并阐述了有关基因组结构变异检测结果的评测指标和手段，最后，结合个人基因组的发展，对于该领域未来的发展提出了改进建议。　　关键词：高通量测序；结构变异检测；生物信息学　　中图分类号：TP391 文献标识码：A 文章编号：2095-2163（2013）05-0035-04 　　0引言　　随着人类基因组计划的宣告完成，对于人类基因组海量数据的研究工作也逐步拉开了序幕，这给生物信息学的发展提供了很好的发展机遇，同时也带来了诸多挑战。之后的千人基因组计划更提供了大量第一手的人类基因组数据，这些数据既可以为生物学数据处理提供原始输入，又能为处理生物学数据所得的结果提供了良好的验证。　　当利用高通量测序数据来检测结构变异时，主要有以下几种思路。第一种是单纯依靠覆盖率信息的方法，这种方法是最早提出检测结构变异的方法，现在已很少单独利用。第二种主要是依靠双末端测序数据中非一致序列并通过聚类来发现结构变异信息，这种方法很难发现具体的机构变异位点信息。第三种方法是利用split read来精确发现结构变异，这种方法可以精确发现结构变异信息，但是重复序列对其影响很大。现在大多数结构变异检测软件都会集成整合上述几种方法，取长补短，并会相应地构建一套独特的数据筛选处理流程，运用更快捷更有效的算法，由此而不断提高基因组结构变异检测的能力。　　1高通量测序数据介绍　　1.1高通量测序技术的介绍[HTSS] 　　对于人类基因组的全测序技术是解决基因组生物信息学的一个至关重要的前提。传统意义上最著名应用、最广泛的测序方法是Sanger测序法[1]，这种方法起源于上世纪70年代，已经过不断地改进而逐步趋于完善。而且，在2001年得到的第一条人类全基因组序列主要采用的就是这种方法，不过，这一过程是通过全球多个研究机构的共同努力，且耗费了数年时间花费巨资才完成。　　随着对于更廉价、更快捷测序技术的需求激增，并经过该领域科学家的通力协作，高通量测序技术应运而生。高通量测序技术的出现极大地降低了全基因组的测序时间以及测序花费。　　表1中显示了几种高通量测序技术的花费和优缺点，最后一列是第一代Sanger测序技术。从表中可以发现，虽然设备较贵，但是Illumina测序仪还是有相对便宜的价格和时间开销，并且由于Illumina测序仪可以使用户根据其需求生成不同的测序数据，因此，在结构变异检测中，原始数据大多数是通过Illumina测序仪得到的。　　1.2双末端测序数据介绍　　在Illumina测序仪的结果中主要会产生两种数据，一种是单末端数据（single end），一种是双末端测序数据（pair end）。这两种数据分别是根据不同的生物学手段得到的，其中双末端测序数据不仅有短序列（read）信息，而且还包含了插入距离信息，这对于同一组序列的位置关系提供了新的一种依靠和保证。在此重点介绍有关双末端测序数据的相关信息。　　在双末端测序数据中，主要包含了相对基因组的上游序列信息、下游序列信息和插入距离信息，而且数据总是成对出现。由于在处理单末端数据时，主要通过短序列覆盖率信息和短序列自身信息来检测结构变异，在利用双末端测序时，不仅可以使用单末端数据中的信息，更能通过对于插入距离的信息来有效地检测结构变异，因此，在检测结构变异的时候大量采用了双末端测序数据。　　2基因组结构变异类型介绍　　随着人类基因组测序技术的进步，全基因组的数据每天都以海量的规模在增长。即使是两个不同人种的同性个体，其基因组之间的差别也是相当小的，虽然比例非常低，但是由于人类全基因组有30亿碱基序列，所以其数目仍是非常可观的，也正是这些差别导致了人类所有个体之间的万千差别。因此，开展这些差异的研究对于无论是疾病、或是医学等其他领域都有着至关重要的深远意义。　　将参考基因组作为比对依据，由此得到的差异信息主要分为两类。第一类是SNP（单核苷酸多态性）；第二类是结构变异，在结构变异中较为常见的则是如图1所示的片段删除和片段插入。　　一般来说，将某个体的基因组序列同参考序列进行比对，如果在一段序列区间内仅有一个位点不同，就将认定为SNP信息。如今的主要检测方法是基于贝叶斯估计进行分类，这种方法当1-5bp的结构变异时，就会产生一个基于统计学的较准确的结果，不过对于长序列问题的复杂度却会迅速增加，分析难度也会显著加大，此时该方法