- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
。
全基因组重测序数据分析
1. 简介(Introduction)
通过高通量测序识别发现 de novo 的 somatic 和 germ line 突变,结构变异-SNV,包括重 排突变(deletioin, duplication 以及 copy number variation)以及 SNP 的座位;针对 重排突变和 SNP 的功能性进行综合分析;我们将分析基因功能(包括 miRNA),重组率 (Recombination)情况,杂合性缺失(LOH)以及进化选择与 mutation 之间的关系;以及 这些关系将怎样使得在 disease(cancer)genome 中的 mutation 产生对应的易感机制和功 能。我们将在基因组学以及比较基因组学,群体遗传学综合层面上深入探索疾病基因组和癌 症基因组。
实验设计与样本
Case-Control 对照组设计 ;
家庭成员组设计:父母-子女组(4 人、3 人组或多人);
初级数据分析
.数据量产出: 总碱基数量、Total Mapping Reads、Uniquely Mapping Reads 统计,测 序深度分析。
.一致性序列组装:与参考基因组序列(Reference genome sequence)的比对分析,利用 贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序 列。
.SNP 检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深 度、重复性等因素作进一步的过滤筛选,最终得到可信度高的 SNP 数据集。并根据参考基因 组信息对检测到的变异进行注释。
.InDel 检测及在基因组的分布: 在进行 mapping 的过程中,进行容 gap 的比对并检测可 信的 short InDel。在检测过程中,gap 的长度为 1~5 个碱基。对于每个 InDel 的检测,至 少需要 3 个 Paired-End 序列的支持。
.Structure Variation 检测及在基因组中的分布: 能够检测到的结构变异类型主要有:
精选资料,欢迎下载
。
插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检 测全基因组水平的结构变异并对检测到的变异进行注释。
高级数据分析
1.测序短序列匹配(Read Mapping)
屏蔽掉 Y 染色体上假体染色体区域(pseudo-autosomal region), 将 Read 与参考序 列 NCBI36 进行匹配(包括所有染色体,未定位的 contig,以及线粒体序列 mtDNA(将用校 正的剑桥参考序列做替代))。采用标准序列匹配处理对原始序列文件进行基因组匹配, 将 Read 与参考基因组进行初始匹配;给出匹配的平均质量得分分布;
碱基质量得分的校准。我们采用碱基质量校准算法对每个 Read 中每个碱基的质量进行 评分,并校准一些显著性误差,包括来自测序循环和双核苷酸结构导致的误差。
测序误差率估计。 pseudoautosomal contigs,short repeat regions(包括 segmental duplication,simple repeat sequence-通过 tandem repeat 识别算法识别)将被过滤;
2. SNP Calling 计算 (SNP Calling)
我们可以采用整合多种 SNP 探测算法的结果,综合地,更准确地识别出SNP。通过对多种算 法各自识别的 SNP 进行一致性分析,保留具有高度一致性的 SNP 作为最终 SNP 结果。这些具 有高度一致性的 SNP 同时具有非常高的可信度。在分析中使用到的 SNP 识别算法包括基于贝 叶斯和基因型似然值计算的方法,以及使用连锁不平衡 LD 或推断技术用于优化 SNP 识别检 出的准确性。
统计 SNV 的等位基因频率在全基因组上的分布
稀有等位基因数目在不同类别的 SNV 中的比率分布(a);SNV 的类别主要考虑:(1)无义 (nonsense),(2)化学结构中非同义,(3)所有非同义,(4)保守的非同义,(5)非 编码,(6)同义,等类型 SNV; 另外,针对保守性的讨论,我们将分析非编码区域 SNV 的 保守型情况及其分布(图 a, b)
精选资料,欢迎下载
。
3. 短插入/缺失探测(Short Insertion /Deletion (Indel)Call)
(1). 计算全基因组的 indel 变异和基因型检出值的过程
计算过程主要包含 3 步:(1)潜在的 indel 的探测;(2)通过局部重匹配计算基因型的似 然值;(3)基于 LD 连锁不平衡的基因型推断和检出识别。Indel 在 X,Y 染色体上没有检 出值得出。
(2). Ind
您可能关注的文档
最近下载
- 电动叉车安全风险点告知牌.docx VIP
- AQL抽样标准培训.pptx VIP
- 2025广东中山市东凤镇污水处理有限责任公司管网维护人员招聘6人笔试模拟试题及答案解析.docx VIP
- 家具设计与工艺ppt-板式家具结构与生产工艺.pdf VIP
- 2025河北建材职业技术学院招聘106人笔试参考题库附答案解析.docx VIP
- 部编版语文四年级下册第四单元大单元教学设计核心素养目标.pdf VIP
- 初中数学常用二级结论知识点总结.doc VIP
- 我的师德小故事 .docx VIP
- 主要股东或出资人信息及投标人基本情况表模板.docx VIP
- 新型独脚金内酯类似物的结构设计、合成及对水稻生长调控的多维度探究.docx
文档评论(0)