全基因组重测序数据分析详细说明.pdf

全基因组重测序数据分析详细说明.pdf

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

word格式-可编辑-感谢下载支持

全基因组重测序数据分析

1.简介(Introduction)

通过高通量测序识别发现denovo的somatic和germline突变,结构变异-SNV,包括重排突变(deletioin,

duplication以及copynumbervariation)以及SNP的座位;针对重排突变和SNP的功能性进行综合分

析;我们将分析基因功能(包括miRNA),重组率(Recombination)情况,杂合性缺失(LOH)以及

进化选择与mutation之间的关系;以及这些关系将怎样使得在disease(cancer)genome中的mutation

产生对应的易感机制和功能。我们将在基因组学以及比较基因组学,群体遗传学综合层面上深入探索疾

病基因组和癌症基因组。

实验设计与样本

(1)Case-Control对照组设计;

(2)家庭成员组设计:父母-子女组(4人、3人组或多人);

初级数据分析

1.数据量产出:总碱基数量、TotalMappingReads、UniquelyMappingReads统计,测序深度分析。

2.一致性序列组装:与参考基因组序列(Referencegenomesequence)的比对分析,利用贝叶斯统

计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。

3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性

等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异

进行注释。

4.InDel检测及在基因组的分布:在进行mapping的过程中,进行容gap的比对并检测可信的shortInDel。

在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支

持。

5.StructureVariation检测及在基因组中的分布:能够检测到的结构变异类型主要有:插入、缺失、复

制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异

并对检测到的变异进行注释。

高级数据分析

word格式-可编辑-感谢下载支持

1.测序短序列匹配(ReadMapping)

(1)屏蔽掉Y染色体上假体染色体区域(pseudo-autosomalregion),将Read与参考序列NCBI36

进行匹配(包括所有染色体,未定位的contig,以及线粒体序列mtDNA(将用校正的剑桥参考序列做替

代))。采用标准序列匹配处理对原始序列文件进行基因组匹配,将Read与参考基因组进行初始匹配;

给出匹配的平均质量得分分布;

(2)碱基质量得分的校准。我们采用碱基质量校准算法对每个Read中每个碱基的质量进行评分,并校

准一些显著性误差,包括来自测序循环和双核苷酸结构导致的误差。

(3)测序误差率估计。pseudoautosomalcontigs,shortrepeatregions(包括segmentalduplication,

simplerepeatsequence-通过tandemrepeat识别算法识别)将被过滤;

2.SNPCalling计算(SNPCalling)

我们可以采用整合多种SNP探测算法的结果,综合地,更准确地识别出SNP。通过对多种算法各自识

别的SNP进行一致性分析,保留具有高度一致性的SNP作为最终SNP结果。这些具有高度一致性的

SNP同时具有非常高的可信度。在分析中使用到的SNP识别算法包括基于贝叶斯和基因型似然值计算

的方法,以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的准确性。

统计SNV的等位基因频率在全基因组上的分布

稀有等位基因数目在不同类别的SNV中的比率分布(a);SNV的类别主要考虑:(1)无义(nonsens

文档评论(0)

135****5548 + 关注
官方认证
内容提供者

各类考试卷、真题卷

认证主体社旗县兴中文具店(个体工商户)
IP属地河南
统一社会信用代码/组织机构代码
92411327MAD627N96D

1亿VIP精品文档

相关文档